поддержка
проекта:
разместите на своей странице нашу кнопку!И мы
разместим на нашей странице Вашу кнопку или ссылку. Заявку прислать на
e-mail
код нашей кнопки:
Компьютерная лингвистика
Создание ЭВМ в середине 20-го в. и быстрое развитие кибернетических
идей (см. Кибернетика) стимулировали появление новых наук, которые ранее
просто невозможно было представить. Как правило, они возникали на стыке
наук, часто не связанных друг с другом. Так, на стыке биологии и
инженерных наук возникла бионика, на стыке психологии и лингвистики -
психолингвистика, а на стыке вычислительной техники и лингвистики
родилась наука, о которой и пойдет речь в этой статье. Новая наука
несколько раз меняла название: сначала она называлась математической
лингвистикой, потом структурной лингвистикой и вычислительной
лингвистикой. Наконец, за ней прочно укрепилось ее современное название
- компьютерная лингвистика.
Две причины обусловили появление новой науки. Во-первых,
исследователи-лингвисты надеялись, что современные точные науки (и
прежде всего математика) помогут лингвистике обрести недостающую ей
точность. Появление ЭВМ укрепило эти надежды, так как многим языковедам
с самого начала было ясно, что компьютеры - это не только "быстро
работающие арифмометры", но и мощное средство для автоматизации работы с
текстами. Появилась возможность автоматизировать многие трудоемкие
процессы, например статистическую обработку текстов, ведение
разнообразных словарных и лексических картотек. Во-вторых, с появлением
компьютеров почти сразу же возникла проблема общения с ними
неподготовленных пользователей. Бесспорно, наилучшей формой для таких
пользователей мог быть привычный естественный язык. Но для организации
такого взаимодействия надо прежде понять законы и особенности
использования естественного языка в процессе общения людей между собой.
А, как вскоре выяснилось, традиционная лингвистика изучением этих
законов практически не занималась.
Так определилось поле деятельности новой науки. К началу 70-х гг.
компьютерная лингвистика получила "права гражданства": стали выходить
специальные сборники и журналы по компьютерной лингвистике, создавались
соответствующие секции на лингвистических конференциях и конференциях по
искусственному интеллекту и, наконец, стали созываться всемирные форумы,
посвященные исключительно проблемам этой науки. В большинстве развитых
стран начался процесс подготовки специалистов в области компьютерной
лингвистики.
В настоящее время в компьютерной лингвистике выделяют пять основных
направлений.
1. Анализ текстов на естественном языке. Лингвисты давно изучают, как
устроен текст, и прежде всего предложение, играющее роль кирпичика, из
совокупности которых складывается текст. Но лишь с появлением
компьютеров эти исследования приобрели новое направление. Группа
американских лингвистов выдвинула дерзкую идею, получившую название
Джорджтаунский проект, - автоматизировать процесс перевода текстов с
одного языка на другой, используя для этого ЭВМ (см. Машинный перевод).
Идея заинтересовала лингвистов многих стран и активизировала работы в
области анализа текстов.
В ходе этих работ надо было ответить прежде всего на вопрос: "Существуют
ли строгие формальные правила, по которым строится структура предложения
и структура текста?" Если о структуре предложения лингвисты накопили
много материала, то структура текста ими не изучалась.
В результате проведенных исследований стало ясно, что за каждым текстом
(в том числе и за отдельным предложением, являющимся своего рода
мини-текстом) скрывается не одна, а несколько формальных структур,
которые можно разделить на три уровня.
Первый уровень - это поверхностная синтаксическая структура. В этой
структуре каждое предложение текста рассматривается изолированно от
других и для каждого проводится что-то вроде разбора предложения по его
членам, как все мы делали в школе. Выделяются подлежащее и сказуемое,
определения, дополнения и обстоятельства разного вида. Но этой структуры
для анализа оказывается мало. Следующий шаг - построение глубинной
синтаксической структуры (второй уровень).
Идея существования глубинной синтаксической структуры связана с
пониманием того, что различные естественные языки, отличаясь друг от
друга многими внешними синтаксическими особенностями, передают весь
спектр взаимосвязей между объектами, явлениями, их свойствами и
протекающими с их участием процессами, характерными для окружающего
мира. И этот мир един, каким бы языком мы его ни описывали.
Следовательно, в каждом тексте существуют не зависящие от особенностей
языка некие глубинные структуры, которые определяют адекватное
отображение той или иной ситуации в окружающем мире.
С этой идеей тесно связано использование так называемых глубинных
падежей, или падежей Филмора, названных по имени американского
исследователя, впервые введшего их в научный оборот. Рассмотрим как
пример две фразы: "Мальчик сорвал цветок" и "Цветок, сорванный
мальчиком". Отвлечемся от того, что активная и пассивная конструкции
предложений фиксируют несколько различный смысл сказанного, обращают
наше основное внимание на разные стороны ситуации. Остановимся на уровне
синтаксиса. В первом предложении субъект действия "сорвал" - это
"мальчик". И это слово играет здесь роль подлежащего, о чем
свидетельствует именительный падеж. Во втором же предложении роль
подлежащего играет слово "цветок", а слово "мальчик" стоит в
творительном- падеже. Но субъектом действия "сорвал" и здесь остается
все тот же "мальчик". А цветок в любом из двух приведенных предложений
играет роль объекта действия. Понимание ситуации, описываемой любым из
этих предложений, заключается, в частности, в том, что мы выделяем в
тексте некоторое действие, а также его субъект и объект. Позиции
субъекта и объекта служат примером тех самых глубинных падежей, которые
ввел Филмор. Эти два падежа (субъектный и объектный) не единственные.
Разные исследователи выделяют разное количество таких падежей
(инструментальный, временной, пространственный и т. д.), но их общее
количество не превосходит полутора десятка.
Синтаксическая структура, построенная на основе глубинных падежей,
позволяет перейти от синтаксического уровня предложения к его
семантическому уровню. На этом уровне для анализа привлекаются
дополнительные данные, связанные с наличием у лексических единиц языка
(в частности, слов) определенных значений. Сами значения известны
носителю языка и хранятся в его памяти. Обращение к памяти позволяет
приписать элементам предложения соответствующие им значения и
использовать их для понимания текста на семантическом уровне.
В семантических структурах (третий уровень формальных структур) также
можно выделить поверхностный и глубинный уровни, в чем-то похожие на
соответствующие уровни в синтаксических структурах. Поверхностный
семантический уровень тесно связан с глубинной синтаксической
структурой, а глубинный семантический уровень как бы отрывается от нее,
передавая смысл для целого класса однотипных ситуаций. Например,
анализируя фразу: "Женщина пришла домой из магазина очень расстроенная",
на поверхностном семантическом уровне мы фиксируем лишь сам факт
состояния женщины. На глубинном же семантическом уровне мы сможем
высказать предположение о причинах ее состояния - пустые полки
магазинов, очереди, отнимающие массу времени и сил, и т. д.
Структуры наиболее "глубокого" уровня, возникающие при анализе
предложений, могут быть названы прагматическими. Из них следует
понимание того, к чему обязывает или призывает данное предложение.
Прагматические структуры устанавливают связь между предложениями в
текстах, связывают текст в единое целое, а также побуждают нас делать те
или иные действия в реальном мире (как, например, надпись: "Стой! Проход
запрещен!").
В процессе анализа текстов, содержащих более одного предложения,
возникают новые структуры, обеспечивающие сцепление этих предложений в
рамках некоторой описываемой ситуации или по-
следовательности ситуаций. Возникают межфразовые связи, позволяющие
понять текст как единое целое. Эти структуры пока изучены значительно
хуже, чем структуры, лежащие в основе одного предложения.
Чтобы выделить необходимые структуры при автоматическом анализе, надо
пройти несколько последовательных этапов. В укрупненном виде они
показаны на рис. 1.
Первый этап - подготовительный, его цель - сделать текст пригодным для
ввода в вычислительную машину. Для этого из текста устраняются (если они
есть) явные ошибки, расшифровываются сокращения и т. п.
На этапе морфологического анализа обрабатываются отдельные слова: в них
выделяются основы и флексии (изменяемые части слов) - приставки,
суффиксы, окончания. Основы слов служат для поиска значений слов,
хранящихся в специальном словаре основ, а флексии используются для
установления грамматических отношений между словами в рамках одного
предложения. Эти отношения выделяются на этапе поверхностного
синтаксического анализа. Его результатом является одна из возможных (по
форме) поверхностных синтаксических структур для каждого из предложений,
образующих текст.
На этапе глубинного синтаксического анализа строится глубинная
синтаксическая структура, которая затем, на этапах семантического
анализа, преобразуется в поверхностную и глубинную семантические
структуры.
Последующие этапы, показанные на рисунке, позволяют строить при
необходимости прагматические и текстовые структуры.
Указанные этапы охватывают всю задачу анализа текстов на естественном
языке. Необходимость в исполнении тех или иных этапов при анализе
конкретного текста зависит от тех целей, для которых этот анализ
осуществляется.
2. Синтез текстов на естественном языке. Задача синтеза может
рассматриваться как обратная по отношению к анализу. Если заданы
некоторая тема и цель будущего текста, то можно считать заданной
прагматическую структуру текста. Ее надо декомпозировать в
прагматические структуры отдельных предложений и для каждого предложения
пройти все этапы анализа в обратном направлении.