поддержка
проекта:
разместите на своей странице нашу кнопку!И мы
разместим на нашей странице Вашу кнопку или ссылку. Заявку прислать на
e-mail
код нашей кнопки:
Машинный перевод
Машинный перевод - это автоматический перевод текстов с одного языка
на другой (например, пословный перевод научно-технической информации,
патентов, документов, инструкций, программ ЭВМ с алгоритмического на
машинный язык), а также научное направление, охватывающее круг проблем,
которые возникают при автоматизации перевода. Система машинного перевода
обычно содержит лингвистические описания входного и выходного языков, т.
е. языков исходного текста и текста, полученного в результате перевода,
и алгоритм, на основе которого выполняется данный перевод.
Машинный перевод как самостоятельное научное направление сформировался в
50-х гг. 20-го в. на стыке таких наук, как математика, кибернетика,
лингвистика и программирование. Первые системы машинного перевода были
двуязычными, перевод шел с одного определенного ("иностранного") языка
на другой определенный ("родной") язык. В основном так переводились
научно-технические статьи и патенты. Позднее появились системы машинного
перевода с "родного" языка на "иностранный". Перевод применялся за
рубежом для рекламы и оформления документации, сопровождающей
экспортируемые изделия. В 80-х гг. получили распространение многоязычные
системы, в которых чаще встречается комбинация: один входной язык -
несколько выходных, реже - несколько входных и один выходной или группа
языков с переводом с любого на любой.
Существующие системы машинного перевода ориентированы преимущественно на
работу с письменными текстами. Машинный перевод устной речи пока не
получил распространения, главным образом, потому, что в этом случае
система машинного перевода помимо собственно перевода с одного языка на
другой должна уметь распознавать переводимую устную речь (что само по
себе непростая проблема) и воспроизводить ее (при помощи синтезатора
речи), но уже на другом языке.
Развитые системы машинного перевода работают по многоэтажной схеме,
состоящей из двух главных частей: анализа переводимого текста и синтеза
перевода. Перевод осуществляется обычно пофраз-но. Этапы анализа таковы:
ввод фразы в ЭВМ; лексический анализ (на уровне слов и частей речи);
поверхностный синтаксический анализ (на уровне членов предложения);
глубинный синтаксический анализ (учитывающий смысловые связи между
словами) . В результате анализа возникает внутреннее представление
фразы, отражающее ее смысл.
Начальный этап синтеза обеспечивает оснащение внутреннего представления
фразы словами выходного языка. На последующих этапах осуществляется
расстановка слов в нужном порядке (с последующим извлечением из словаря
их внешней лексической формы) и формирование окончательного вида
переведенной фразы.
Обычный, неавтоматизированный перевод определяется схемой:
входной (переводимый) текст - переводчик - сырой перевод - редактор -
выходной (переведенный) текст.
По аналогии с этой схемой строились и первые системы машинного перевода:
входной текст - ввод в ЭВМ - анализ/синтез промежуточного текста -
редактор - выходной текст.
Поскольку ныне многие редакторы работают за пультом дисплея, на экране
которого отображается переводимый текст, общая схема выглядит так:
входной текст - ввод в ЭВМ - (анализ/синтез промежуточного текста) -
(редактор + дисплей) - выходной текст.
При переводе со своего языка на чужой используется также перевод с
предредактированием, когда редактор до ввода в ЭВМ обрабатывает текст,
убирая трудно переводимые конструкции или делая разметку. Текст
редактируют и после перевода. В первых системах машинного перевода
человек не вмешивался в работу системы. Но затем появились схемы с
интерредактированием, когда в процессе перевода человек и переводческая
система взаимодействуют. Система спрашивает человека в трудных для нее
случаях. Такой перевод не является машинным в полном смысле слова, о нем
говорят как о человеко-машинном или частично автоматизированном
переводе. Здесь возникают многие проблемы, о которых говорится в статье
"Диалоговая система". Система перевода требует три уровня обеспечения:
лингвистический, математико-алгоритмический и программный. Иногда к ним
добавляются информационный и логический уровни обеспечения.
Лингвистическое обеспечение - это словари и грамматики для языков,
участвующих в переводе. Математико-алгоритмическое обеспечение включает
в себя формальные модели для представления данных и алгоритмы
переработки данных. Программное обеспечение - это программы, реализующие
алгоритмы перевода, и разного рода обслуживающие программы.
Информационное обеспечение - это база знаний о некоторой предметной
области, к которой относятся переводимые тексты. Логическое обеспечение
- это правила логического вывода, позволяющие использовать знания о
предметной области при анализе и синтезе текста.
Ученые широко используют ЭВМ для изучения и
расшифровки древних письмен: таинственного диска из города Фест на Крите
и послания древних жителей острова Пасхи.
Действия переводчика в самых общих чертах можно описать так: он
читает очередную фразу текста, уясняет себе ее смысл и передает этот
смысл на другом языке, сохраняя определенные структурные особенности
текста (иначе это будет пересказ, а не перевод). При этом он использует
лингвистические данные обоих языков и сведения из той области знания, к
которой относится текст (базу знаний), а также по мере перевода сведения
о предшествующих частях текста. Понимание переводимой части текста
(анализ текста) - это переход от его обычной словесной записи к
некоторому внутреннему представлению в сознании человека. Синтез
переведенного текста - переход от внутреннего представления к словесному
выражению на другом языке.