Меню

Компьютерная лингвистика. Связь лингвистики и информатики

Плитка

лингвистика статистический языкознание программный

История развития компьютерной лингвистики

Процесс становления и формирования современной лингвистики как науки о естественном языке представляет собой длительное историческое развитие лингвистического знания. В основе лингвистического знания лежат элементы, формирование которых происходило в процессе деятельности, неразрывно связанной с освоением структуры устной речи, появлением, дальнейшим развитием и совершенствованием письма, обучением письму, а также толкованием и расшифровкой текстов.

Естественный язык как объект лингвистики занимает центральное место в этой науки. В процессе развития языка менялись и представления о нем. Если раньше не придавалось особого значения внутренней организации языка, и он рассматривался, прежде всего, в контексте взаимосвязи с внешним миром, то, начиная с конца XIX - начала XX вв., особая роль отводится внутреннему формальному строению языка. Именно в этот период известным швейцарским лингвистом Фердинандом де Соссюром были разработаны основы таких наук, как семиология и структурная лингвистика, и подробно изложены в его книге «Курс общей лингвистики» (1916).

Ученому принадлежит идея рассмотрения языка как единого механизма, целостной системы знаков, что в свою очередь дает возможность описать язык математически. Соссюр первым предложил структурный подход к языку, а именно: описание языка посредством изучения соотношений между его единицами. Под единицами, или «знаками» он понимал слово, которое объединяет в себе и смысл, и звучание. В основе концепции, предложенной швейцарским ученым, лежит теория языка как системы знаков, состоящей из трех частей: языка (от фр. langue), речи (от фр. parole) и речевой деятельности (от фр. langage).

Сам ученый определял создаваемую им науку семиологию как «науку, изучающую жизнь знаков в рамках жизни общества». Поскольку язык - это знаковая система, то в поиске ответа на вопрос о том, какое место лингвистика занимает среди других наук, Соссюр утверждал, что лингвистика - это часть семиологии. Принято считать, что именно швейцарский филолог заложил теоретический фундамент нового направления в лингвистике, став основоположником, «отцом» современного языкознания.

Концепция, выдвинутая Ф. де Соссюром, получила дальнейшее развитие в работах многих выдающихся ученых: в Дании - Л. Ельмслев, в Чехии - Н. Трубецкой, в США - Л. Блумфилд, 3. Харрис, Н. Хомский. Что касается нашей страны, то здесь структурная лингвистика начала свое развитие примерно в тот же период времени, что и на Западе, - на рубеже XIX-XX вв. - в трудах Ф. Фортунатова и И. Бодуэн де Куртенэ. Следует отметить, что И. Бодуэн де Куртенэ тесно сотрудничал с Ф. де Соссюром. Если Соссюр заложил теоретический фундамент структурной лингвистики, то Бодуэн де Куртенэ может считаться человеком, заложившим основы практического применения методов, предложенных швейцарским ученым. Именно он определил лингвистику как науку, использующую статистические методы и функциональные зависимости, и отделил ее от филологии. Первым опытом применения математических методов в языкознании стала фонология - наука о структуре звуков языка.

Следует отметить, что постулаты, выдвинутые Ф. де Соссюром, смогли найти отражение в проблемах лингвистики актуальных в середине XX века. Именно в это период и намечается явная тенденция к математизации науки о языке. Практически во всех крупных странах начинается бурное развитие науки и вычислительной техники, что в свою очередь потребовало все более новых лингвистических основ. Результатом всего этого стало быстрое сближение точных и гуманитарных наук, а также активное взаимодействие математики и лингвистики нашло практическое применение при решении актуальных научных проблем.

В 50-е годы XX века на стыке таких наук, как математика, лингвистика, информатика и искусственный интеллект, возникло новое направление науки - компьютерная лингвистика (известной также под названием машинная лингвистика или автоматическая обработка текстов на естественном языке). Основные этапы развития этого направления происходили на фоне эволюции методов искусственного интеллекта. Мощным толчком к развитию компьютерной лингвистики послужило создание первых ЭВМ. Однако с появлением в 60-х годах нового поколения компьютеров и языков программирования начинается принципиально новый этап в развитии этой науки. Также следует отметить, что истоки компьютерной лингвистики восходят к трудам известного американского ученого-лингвиста Н. Хомского в области формализации структуры языка. Результаты его исследований, полученные на стыке лингвистики и математики, сформировали основу для развития теории формальных языков и грамматик (порождающих, или генеративных, грамматик), которая широко применяется для описания как естественных, так и искусственных языков, в частности языков программирования. Если говорить точнее, то эта теория является вполне математической дисциплиной. Ее можно считать одной из первых в таком направлении прикладной лингвистики, как математическая лингвистика.

Первые эксперименты и первые разработки в компьютерной лингвистике относятся к созданию систем машинного перевода, а также систем, моделирующих языковые способности человека. В конце 80-х годов с появлением и активным развитием сети Интернет произошел бурной рост объемов текстовой информации, доступной в электронном виде. Это привело к тому, что технологии информационного поиска перешли на качественно новую ступень своего развития. Возникла необходимость автоматической обработки текстов на естественном языке, появились совершенно новые задачи и технологии. Ученые столкнулись с такой проблемой, как быстрая обработка огромного потока неструктурированных данных. С целью найти решение для данной проблемы большое значение стало уделяться разработке и применению статистических методов в области автоматической обработки текстов. Именно с их помощью оказалось возможным решение таких задач, как разбиение текстов на кластеры, объединенные общей тематикой, выделение в тексте определенных фрагментов и т.д. Кроме этого, применение методов математической статистики и машинного обучения позволило решить задачи распознавания речи и создания поисковых систем.

Ученые не останавливались на достигнутых результатах: они продолжали ставить перед собой все новые цели и задачи, разрабатывать новые приемы и методы исследования. Все это привело к тому, что языкознание стало выступать в качестве прикладной науки, объединяющей в себе ряд других наук, ведущая роль среди которых принадлежала математике с ее многообразием количественных методов и возможностью их применять для более глубокого осмысления изучаемых явлений. Так начала свое формирование и развитие математическая лингвистика. На данный момент это достаточно «молодая» наука (существует около пятидесяти лет), однако, несмотря на свой весьма «юный возраст», она представляет собой уже сложившуюся область научных знаний с множеством успешных достижений.

Введение

Что такое компьютерная лингвистика?

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА , направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. Собственно, только в последнем случае и идет речь о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке. На практике, однако, к компьютерной лингвистике относят практически все, что связано с использованием компьютеров в языкознании.

Как особое научное направление компьютерная лингвистика оформилась в 1960-е годы. Русский термин «компьютерная лингвистика» является калькой с английского computational linguistics. Поскольку прилагательное computational по-русски может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативной лингвистики». Поток публикаций в этой области очень велик. Кроме тематических сборников, в США ежеквартально выходит журнал «Компьютерная лингвистика». Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике, которая имеет региональные структуры (в частности, европейское отделение). Каждые два года проходят международные конференции по компьютерной лингвистике – COLING. Соответствующая проблематика обычно бывает широко представлена также на различных конференциях по искусственному интеллекту.

Задачи

Компьютерная лингвистика берет на себя собственно лингвистические проблемы компьютерного моделирования языковой деятельности. Ее задачи – построение более точных и более полных лингвистических моделей и более совершенных алгоритмов анализа и синтеза.

В качестве основных направлений можно выделить:

1) Взаимодействие человека и ЭВМ: управление – языки программирования, передача информации – интерфейс.

2) Работа с текстами: индексирование, анализ и классификация, автоматическое редактирование (исправление ошибок), выявление знаний, машинный перевод.

История

Простое порождение подмножества английского языка для обращения к базам данных было обеспечено одной из ранних американских систем LIFER (Languagе Interface Facility wich Elipsis and Recursion), созданной в 70-е годы. Вслед за ней на компьютерном рынке появились и другие, более гибкие системы, обеспечивающие ограниченный естественно-языковой интерфейс с ЭВМ.

В 80-е годы в США образовался ряд компаний, занимающихся разработкой и продажей естественно-языковых интерфейсов с базами данных, экспертными системами. В 1985г. Корпорация "Семантек" представила такой пакет программ Q&A, компания "Карнеги Группа" предложила аналогичный пакет LanguageCraft.

Ведутся активные работы по созданию систем автоматического перевода. Получила распространение система автоматического перевода SYSTRAN, разработанная под руководством Д. Тома по заказу военно-воздушных сил США. В течение 1974 - 1975 гг. система была использована аэрокосмической ассоциацией NASA для перевода документов по проекту Аполлон-Союз. В наше время она переводит с нескольких языков около 100 000 страниц ежегодно.

В Европе работы по созданию компьютерных систем перевода стимулировались образованием Европейской информационной Сети (EURONET DIANA). В 1982 г. Европейское экономическое сообщество объявило о создании европейской программы EUROTRA, цель которой – разработка системы компьютерного перевода для всех европейских языков. Первоначально проект оценивался в 12 млн долларов, в 1987 г. специалисты определили суммарные расходы по этому проекту более чем в 160 млн долларов.

В Японии исследования по компьютерной лингвистике концентрируются вокруг общенациональной программы создания компьютеров пятого поколения, объявленной в 1981 г.

Существует ряд военных проектов создания человеко-машинных интерфейсов на естественном языке. В США они ведутся в основном в рамках стратегической компьютерной инициативы - десятилетней программы, принятой министерством обороны в 1983 г. Цель ее - создание нового поколения "интеллектуальных" оружия и военных систем с целью обеспечить многолетнее технологическое превосходство США.

Естественно, что специалисты по искусственному интеллекту, прекрасно разбирающиеся в компьютерах и языках программирования, энергично принялись за решение проблемы понимания языка своими методами. Шел поиск алгоритмов естественного языка. Были созданы сложные программы понимания языка для очень узких специальных областей, реализованы программы частичного машинного перевода и ряд других. Но решающего продвижения в решении проблемы понимания языка так и не было. Язык и человек настолько связаны, что ученым пришлось заняться проблемой понимания мира человеком. А это уже область философии.

Базовые понятия лингвистики

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА (калька с английского computational linguistics), одно из направлений прикладной лингвистики, в котором для исследования языка и моделирования функционирования языка в тех или иных условиях, ситуациях и проблемных сферах разрабатываются и используются компьютерные программы, компьютерные технологии организации и обработки данных. С другой стороны, это область применения компьютерных моделей языка в лингвистике и смежных с ней дисциплинах. Как особое научное направление компьютерная лингвистика оформилась в европейских исследованиях в 1960-х годах. Поскольку английское прилагательное computational может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативная лингвистика».

Часто к компьютерной лингвистике относят термин «квантитативная лингвистика», который характеризует междисциплинарное направление в прикладных исследованиях, где в качестве основного инструмента изучения языка и речи используются количественные или статистические методы анализа. Иногда квантитативная (или количественная) лингвистика противопоставляется комбинаторной лингвистике. В последней доминирующую роль занимает «неколичественный» математический аппарат - теория множеств, математическая логика, теория алгоритмов и т. д. С теоретической точки зрения использование статистических методов в языкознании позволяет дополнить структурную модель языка вероятностным компонентом, т. е. создать теоретическую структурно-вероятностную модель, обладающую значительным объяснительным потенциалом. В прикладной области квантитативная лингвистика представлена, прежде всего, использованием фрагментов этой модели, используемых для лингвистического мониторинга функционирования языка, дешифровки кодированного текста, авторизации/атрибуции текста и т. п.

Термин «компьютерная лингвистика» и проблематика этого направления часто связываются с моделированием общения, и прежде всего - с обеспечением взаимодействия человека с ЭВМ на естественном или ограниченном естественном языке (для этого создаются специальные системы обработки естественного языка), а также с теорией и практикой информационно-поисковых систем (ИПС). Обеспечение общения человека с ЭВМ на естественном языке иногда обозначается термином «обработка естественного языка» (перевод с английского языка термина Natural Language Processing). Это направление компьютерной лингвистики возникло в конце 1960-х годов за рубежом и развивалось в рамках научно-технологической дисциплины, именуемой искусственным интеллектом (работы Р. Шенка, М. Лебовица, Т. Винограда и др.). По своему смыслу словосочетание «обработка естественного языка» должно охватывать все области, в которых компьютеры используются для обработки языковых данных. На практике, однако, закрепилось более узкое понимание термина - разработка методов, технологий и конкретных систем, обеспечивающих общение человека с ЭВМ на естественном или ограниченном естественном языке.

К компьютерной лингвистике в определённой степени могут быть отнесены работы в области создания гипертекстовых систем, рассматриваемых как особый способ организации текста и даже как принципиально новый вид текста, противопоставленный по многим своим свойствам обычному тексту, сформированному в гутенберговской традиции книгопечатания (смотри Гутенберг).

К компетенции компьютерной лингвистики относится и автоматический перевод.

В рамках компьютерной лингвистики возникло и сравнительно новое, активно развивающееся с 1980-90-х годов направление - корпусная лингвистика, где разрабатываются общие принципы построения лингвистических корпусов данных (в частности, корпусов текстов) с использованием современных компьютерных технологий. Корпуса текстов - это коллекции специально подобранных текстов книг, журналов, газет и т.д., перенесённые на машинные носители и предназначенные для автоматической обработки. Один из первых корпусов текстов был создан для американского варианта английского языка в Брауновском университете (так называемый Брауновский корпус) в 1962-63 под руководством У. Френсиса. В России с начала 2000-х годов в Институте русского языка имени В. В. Виноградова РАН разрабатывается Национальный корпус русского языка, состоящий из представительной выборки русскоязычных текстов объёмом порядка 100 миллионов словоупотреблений. Кроме собственно конструирования корпусов данных, корпусная лингвистика занимается созданием компьютерных инструментов (компьютерных программ), предназначенных для извлечения разнообразной информации из текстовых корпусов. С точки зрения пользователя, к корпусам текстов предъявляются требования представительности (репрезентативности), полноты и экономичности.

Компьютерная лингвистика активно развивается и в России, и за рубежом. Поток публикаций в этой области очень велик. Кроме тематических сборников, в США с 1984 ежеквартально выходит журнал «Computational Linguistics» («Компьютерная лингвистика»). Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике (The Association for Computational Linguistics), которая имеет региональные структуры по всему миру (в частности, европейское отделение). Каждые два года проходят международные конференции КОЛИНТ (в 2008 конференция проходила в Манчестере). Основные направления компьютерной лингвистики обсуждаются также на ежегодной международной конференции «Диалог», организуемой Российским НИИ искусственного интеллекта, филологическим факультетом МГУ, Яндексом и рядом других организаций. Соответствующая проблематика широко представлена также на международных конференциях по искусственному интеллекту разных уровней.

Лит.: Звегинцев В. А. Теоретическая и прикладная лингвистика. М., 1968; Пиотровский Р. Г., Бектаев К. Б., Пиотровская А. А. Математическая лингвистика. М., 1977; Городецкий Б. Ю. Актуальные проблемы прикладной лингвистики // Новое в зарубежной лингвистике. М., 1983. Вып. 12; Кибрик А. Е. Прикладная лингвистика // Кибрик А. Е. Очерки по общим и прикладным вопросам языкознания. М., 1992; Kennedy G. An introduction to corpus linguistics. L., 1998; Bolshakov I.А., Gelbukh А. Computational linguistics: models, resources, applications. Мех., 2004; Национальный корпус русского языка: 2003-2005. М., 2005; Баранов А. Н. Введение в прикладную лингвистику. 3-е изд. М., 2007; Компьютерная лингвистика и интеллектуальные технологии. М., 2008. Вып. 7.

Компьютерные лингвисты занимаются разработкой алгоритмов распознавания текста и звучащей речи, синтезом искусственной речи, созданием систем семантического перевода и самим развитием искусственного интеллекта (в классическом смысле слова - как замена человеческому - он вряд ли когда-нибудь появится, но зато возникнут различные экспертные системы, основанные на анализе данных).

Алгоритмы распознавания речи будут все больше использоваться в быту - у «умных домов» и электронных приборов не будет пультов и кнопок, а вместо них будет использоваться голосовой интерфейс. Эта технология оттачивается, но вызовов еще много: компьютеру сложно распознать человеческую речь, потому что разные люди говорят очень по-разному. Поэтому, как правило, системы распознавания работают хорошо либо когда они натренированы на одного диктора и уже подстроены под его особенности произношения, либо когда количество фраз, которые может распознать система, ограничено (как, к примеру, в голосовых командах для телевизора).

У специалистов по созданию программ семантического перевода впереди еще много работы: на данный момент неплохие алгоритмы разработаны только для перевода на английский и с английского. Тут много проблем - разные языки по-разному устроены в семантическом плане, это различается даже на уровне построения фраз, и не все смыслы одного языка можно передать с помощью семантического аппарата другого. Кроме того, программа должна различать омонимы, правильно распознавать части речи, выбрать правильное значение многозначного слова, подходящее к контексту.

Синтез искусственной речи (например, для домашних роботов) - тоже кропотливая работа. Сложно сделать так, чтобы искусственно созданная речь звучала естественно для человеческого уха, ведь есть миллионы нюансов, на которые мы не обращаем внимания, но без которых все уже не «то» - фальстарты, паузы, заминки и т.д. Речевой поток непрерывен и одновременно дискретен: мы говорим, не делая паузы между словами, но нам нетрудно понять, где заканчивается одно слово и начинается другое, а для машины это будет большая проблема.

Самое большое направление в компьютерной лингвистике связано с Big Data. Ведь существуют огромные корпуса текстов типа новостных лент, из которых нужно вычленять определенную информацию - например, выделять инфоповоды или затачивать RSS под вкусы определенного пользователя. Такие технологии есть уже cейчас и будет развиваться дальше, потому что вычислительные мощности стремительно растут. Лингвистический анализ текстов используется и при обеспечении безопасности в интернете, поиске необходимой информации для спецслужб.

Где учиться на компьютерного лингвиста? У нас, к сожалению, довольно сильно разделены специальности, связанные с классической лингвистикой, и программирование, статистика, анализ данных. А для того, чтобы стать цифровым лингвистом, нужно разбираться и в том, и в другом. В зарубежных вузах есть программы высшего образования по компьютерной лингвистике, а у нас пока оптимальный вариант - получить базовое лингвистическое образование, а потом освоить основы IT. Хорошо, что сейчас есть много разных онлайн-курсов, к сожалению, в мои студенческие годы такого не было. Я училась на факультете прикладной лингвистике в МГЛУ, где у нас были курсы по искусственному интеллекту и распознаванию устной речи - но все-таки в недостаточном объеме. Сейчас IT-компании активно пытаются взаимодействовать с институтами. Мы с коллегами из «Лаборатории Касперского» тоже стараемся участвовать в образовательном процессе: читаем лекции, проводим студенческие конференции, даем гранты аспирантам. Но пока инициатива больше исходит от работодателей, чем от университетов.

Современная компьютерная лингвистика очень во многом ориентирована на использование математических моделей. Есть даже расхожее мнение, что лингвисты не особенно нужны для автоматического моделирования естественного языка. Известно крылатое выражение Фредерика Елинека , руководителя центра распознавания речи университета Джона Хопкинса: "Anytime a linguist leaves the group, the recognition rate goes up" - каждый раз, когда лингвист покидает рабочую группу, качество распознавания повышается.

Однако, чем более сложные и многоуровневые задачи лингвистического моделирования ставятся перед разработчиками автоматических систем, тем очевидней становится, что их решение невозможно без учета лингвистической теории, понимания того, как функционирует язык, лингвистической экспертной компетенции. В то же время, стало очевидно, что автоматические методы анализа и моделирования языковых данных могут существенно обогатить теоретические лингвистические исследования, являясь и средством для сбора языковых данных и инструментом проверки состоятельности той или иной лингвистической гипотезы.

Форум по оценке систем автоматической обработки текста

С.Ю.Толдова, О.Н. Ляшевская, А.А. Бонч-Осмоловская

Как формализовать лексическое значение, сделать его "машиночитаемым"? Ответ на это дают дистрибуционные модели языка, в которых значение слова есть сумма его контекстов в достаточно большом корпусе. Искусственные нейронные сети позволяют быстро и качественно обучать такие модели.

Денис Кирьянов, Таня Панова (научный руководитель Б.В. Орехов)

У этой программы есть две функции: а) нормализация текста на идише, б) транслитерация из квадратного письма в латиницу. Эти проблемы очень актуальны: до настоящего момента не существовало ни одного нормализатора, если не считать таковыми спелл-чекеры. Меж тем, практически каждое издательство, выпускавшее книги на идише, следовало своей орфографической практике. Нормализатор необходим для работы над корпусом языка идиш: для сведения всех текстов к единой орфографии, распознаваемой парсером. Транслитерация позволит работать с материалом идиша и типологам.

ВИДЕО сотрудников Школы лингвистики:

По выбору; 3-й курс, 2, 3 модуль

Обязательный; 1-й курс, 2 модуль

По выбору; 3-й курс, 3 модуль

Обязательный; 4-й курс, 1-3 модуль

Обязательный; 4-й курс, 2 модуль

Обязательный; 2-й курс, 1, 2, 4 модуль