Компьютерная лингвистика. История, развитие и становление компьютерной лингвистики как научного направления

В Институте лингвистики РГГУ с 2012 года осуществляется подготовка магистров по программе магистратуры Компьютерная лингвистика (направление Фундаментальная и прикладная лингвистика ). Эта программа предназначена для подготовки профессиональных лингвистов , владеющих как основами языкознания, так и современными методами научно-исследовательской, экспертно-аналитической, инженерной работы и способных эффективно участвовать в разработке инновационных языковых компьютерных технологий.

В образовательном процессе участвуют разработчики крупных исследовательских и коммерческих систем в области автоматической обработки текста, что обеспечивает связь обучения магистров с мейнстримом современной компьютерной лингвистики. Особое внимание уделяется участию магистров в российских и международных конференциях.

Среди преподавателей авторы базовых учебников по лингвистическим специальностям, специалисты мирового уровня, руководители проектов крупных систем автоматической обработки языка: Я.Г. Тестелец, И.М. Богуславский, В.И. Беликов, В.И. Подлесская, В.П. Селегей, Л.Л. Иомдин, А.С. Старостин, С.А. Шаров, а также сотрудники компаний, являющихся мировыми лидерами в области компьютерной лингвистики: IBM (система Watson), Яндекс, ABBYY (системы Lingvo, FineReader, Compreno).

Основой подготовки магистров по данной программе является проектный подход. Привлечение магистрантов к научно-исследовательской работе в области компьютерной лингвистики происходит на базе РГГУ и на базе компаний, занимающихся разработкой программ в области АОТ (ABBYY, IBM и др.), что, безусловно, является большим плюсом как для самих магистров, так и для их возможных работодателей. В частности, осуществляется приём в магистратуру целевых магистров, обучение которых обеспечивается будущими работодателями.

Вступительные испытания : "Формальные модели и методы современной лингвистики". Точную информацию о времени экзамена можно получить на сайте отдела магистратуры РГГУ .

Руководители магистратуры - зав. Учебно-научным центром компьютерной лингвистики, директор по лингвистическим исследованиям компании ABBYY Владимир Павлович Селегей и д.ф.н., профессор Вера Исааковна Подлесская .

Программа вступительного экзамена и собеседования по дисциплине «Формальные модели и методы современной лингвистики».

Комментарии к программе

  • Любой вопрос программы может сопровождаться задачами, связанными с описаниями конкретных языковых явлений, относящихся к разделу вопроса: построению структур, описанию ограничений, возможным алгоритмам построения и/или идентификации.
  • Вопросы, отмеченные звездочками, являются факультативными (в билетах стоят под №3). Владение соответствующим материалом является серьезным бонусом для кандидатов, но не обязательно.
  • Помимо теоретических вопросов в билетах на экзамене будет предложен небольшой фрагмент специального (лингвистического) текста на английском языке – для перевода и обсуждения. От поступающих требуется продемонстрировать удовлетворительный уровень владения англоязычной научной терминологией и навыками анализа научного текста. В качестве примера текста, который не должен вызвать у поступающего серьезных трудностей, ниже приводится фрагмент статьи https://en.wikipedia.org/wiki/Anaphora_(linguistics) :

In linguistics, anaphora (/əˈnæfərə/) is the use of an expression whose interpretation depends upon another expression in context (its antecedent or postcedent). In a narrower sense, anaphora is the use of an expression that depends specifically upon an antecedent expression and thus is contrasted with cataphora, which is the use of an expression that depends upon a postcedent expression. The anaphoric (referring) term is called an anaphor. For example, in the sentence Sally arrived, but nobody saw her, the pronoun her is an anaphor, referring back to the antecedent Sally. In the sentence Before her arrival, nobody saw Sally, the pronoun her refers forward to the postcedent Sally, so her is now a cataphor (and an anaphor in the broader, but not the narrower, sense). Usually, an anaphoric expression is a proform or some other kind of deictic (contextually-dependent) expression. Both anaphora and cataphora are species of endophora, referring to something mentioned elsewhere in a dialog or text.

Anaphora is an important concept for different reasons and on different levels: first, anaphora indicates how discourse is constructed and maintained; second, anaphora binds different syntactical elements together at the level of the sentence; third, anaphora presents a challenge to natural language processing in computational linguistics, since the identification of the reference can be difficult; and fourth, anaphora tells some things about how language is understood and processed, which is relevant to fields of linguistics interested in cognitive psychology.

ТЕОРЕТИЧЕСКИЕ ВОПРОСЫ

ОБЩИЕ ВОПРОСЫ ЯЗЫКОЗНАНИЯ

  • Объект лингвистики. Язык и речь. Синхрония и диахрония.
  • Уровни языка. Формальные модели уровней языка.
  • Синтагматика и парадигматика. Понятие дистрибуции.
  • Основания межъязыковых сравнений: типологическая, генеалогическая и ареальная лингвистика.
  • *Математическая лингвистика: объект и методы исследований

ФОНЕТИКА

  • Предмет фонетики. Артикуляционная и акустическая фонетика.
  • Сегментная и супрасегментная фонетика. Просодия и интонация.
  • Основные понятия фонологии. Типология фонологических систем и их фонетических реализаций.
  • *Компьютерные инструменты и методы фонетических исследований
  • *Анализ и синтез речи.

МОРФОЛОГИЯ

  • Предмет морфологии. Морфы, морфемы, алломорфы.
  • Словоизменение и словообразование.
  • Грамматические значения и способы их реализации. Грамматические категории и граммемы. Морфологические и синтаксические грамматические значения.
  • Понятия словоформы, основы, леммы и парадигмы.
  • Части речи; основные подходы к выделению частей речи.
  • *Формальные модели описания словоизменения и словообразования.
  • *Морфология в задачах автоматической обработки языка: проверка орфографии, лемматизация, POS-tagging

СИНТАКСИС

  • Предмет синтаксиса. Способы выражения синтаксических отношений.
  • Способы представления синтаксической структуры предложения. Достоинства и недостатки деревьев зависимостей и составляющих.
  • Способы описания линейного порядка. Непроективность и разрыв составляющих. Понятие трансформации; трансформации, связанные с линейным порядком.
  • Связь между синтаксисом и семантикой: валентности, модели управления, актанты и сирконстанты.
  • Диатеза и залог. Актантная деривация.
  • Коммуникативная организация высказывания. Тема и рема, данное и новое, контрастивность.
  • *Основные синтаксичеcкие теории: МСТ, генеративизм, функциональная грамматика, HPSG
  • *Математические модели синтаксиса: классификация формальных языков по Хомскому, алгоритмы распознавания и их сложность.

СЕМАНТИКА

  • Предмет семантики. Наивная и научная языковые картины мира. Гипотеза Сепира – Уорфа.
  • Значение в языке и речи: смысл и референт. Тип референции (денотативный статус).
  • Лексическая семантика. Способы описания семантики слова.
  • Грамматическая семантика. Основные категории на примере русского языка.
  • Семантика предложения. Пропозициональный компонент. Дейксис и анафора. Кванторы и связки. Модальность.
  • Иерархия и системность лексических значений. Полисемия и омонимия. Семантическая структура многозначного слова. Понятия инварианта и прототипа.
  • Парадигматические и синтагматические отношения в лексике. Лексические функции.
  • Толкование. Язык толкований. Московская семантическая школа
  • Семантика и логика. Истинностное значение высказывания.
  • Теория речевых актов. Высказывание и его иллокутивная сила. Перформативы. Классификация речевых актов.
  • Фразеология: инвентарь и способы описания фразеологических единиц.
  • *Модели и методы формальной семантики.
  • *Модели семантики в современной компьютерной лингвистике.
  • *Дистрибутивная и операциональная семантики.
  • *Основные идеи грамматики конструкций.

ТИПОЛОГИЯ

  • Традиционные типологические классификации языков.
  • Типология грамматических категорий имени и глагола.
  • Типология простого предложения. Основные типы конструкций: аккузативная, эргативная, активная.
  • Типология порядка слов и гринберговские корреляции. Лево- и правоветвящиеся языки.

ЛЕКСИКОГРАФИЯ

  • Лексика как инвентарь культуры; социальное варьирование лексики, лексические узус, норма, кодификация.
  • Типология словарей (на русском материале). Отражение лексики в словарях различных типов.
  • Двуязычная лексикография с привлечением русского языка.
  • Дескриптивная и прескриптивная лексикография. Профессиональные лингвистические словари.
  • Специфика основных русских толковых словарей. Структура словарной статьи. Толкование и энциклопедическая информация.
  • Лексика и грамматика. Представление об интегральной модели языка в Московской семантической школе.
  • *Методика работы лексикографа.
  • *Корпусные методы в лексикографии.

ЛИНГВИСТИКА ТЕКСТА И ДИСКУРС

  • Понятие текста и дискурса.
  • Механизмы межфразовой связи. Основные разновидности средств их языковой реализации.
  • Предложение как единица языка и как элемент текста.
  • Сверхфразовые единства, принципы их формирования и выделения, основные свойства.
  • Основные категории классификации текстов (жанр, стиль, регистр, предметная область и т.д)
  • *Методы автоматической жанровой классфикации.

СОЦИОЛИНГВИСТИКА

  • Проблема предмета и границ социолингвистики, ее междисциплинарный характер. Основные понятия социологии и демографии. Уровни языковой структуры и социолингвистика. Основные понятия и направления социолингвистики.
  • Языковые контакты. Билингвизм и диглоссия. Дивергентные и конвергентные процессы в истории языка.
  • Социальная дифференциация языка. Формы существования языка. Литературный язык: узус-норма-кодификация. Функциональные сферы языка.
  • Языковая социализация. Иерархический характер социальной и языковой идентичности. Языковое поведение индивида и его коммуникативный репертуар.
  • Методы социолингвистических исследований.

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА

  • Задачи и методы компьютерной лингвистики.
  • Корпусная лингвистика. Основные характеристики корпуса.
  • Представление знаний. Основные идеи теории фреймов М. Минского. Система FrameNet.
  • Тезаурусы и онтологии. WordNet.
  • Основы статистического анализа текстов. Частотные словари. Анализ коллокаций.
  • *Понятие машинного обучения.

ЛИТЕРАТУРА

Учебная (базовый уровень)

Баранов А.Н. Введение в прикладную лингвистику. М.: Едиториал УРРС, 2001.

Баранов А.Н., Добровольский Д.О. Основы фразеологии (краткий курс) Учебное пособие. 2-е издание. Москва: Флинта, 2014.

Беликов В.А., Крысин Л.П. Социолингвистика. М., РГГУ, 2001.

Бурлак С.А., Старостин С.А. Сравнительно-историческое языкознание. М.: Академия. 2005

Вахтин Н.Б., Головко Е.В.. Социолингвистика и социология языка. СПб., 2004.

Князев С. В., Пожарицкая С. К. Современный русский литературный язык: Фонетика, графика, орфография, орфоэпия. 2 изд. М., 2010

Кобозева И.М. Лингвистическая семантика. М.: Едиториал УРСС. 2004.

Кодзасов С.В., Кривнова О.Ф. Общая фонетика. М.: РГГУ, 2001.

Кронгауз М.А. Семантика. М.: РГГУ. 2001.

Кронгауз М.А. Семантика: Задачи, задания, тексты. М.: Академия. 2006..

Маслов Ю.С. Ведение в языкознание. Изд. 6-е, стер. М.: Академия, фил. фак. СПбГУ,

Плунгян В.А. Общая морфология: Введение в проблематику. Изд. 2-е. М.: Едиториал УРСС, 2003.

Тестелец Я.Г. Введение в общий синтаксис. М., 2001.

Шайкевич А.Я. Введение в лингвистику. М.: Академия. 2005.

Научная и справочная

Апресян Ю.Д. Избранные труды, том I. Лексическая семантика: 2-е изд., исп. и доп. М.: Школа "Языки русской культуры", 1995.

Апресян Ю.Д. Избранные труды, том II. Интегральное описание языка и системная лексикография. М.: Школа "Языки русской культуры", 1995.

Апресян Ю.Д. (ред.) Новый объяснительный словарь синонимов русского языка. Москва - Вена: "Языки русской культуры", Wiener Slavistischer Almanach, Sonderband 60, 2004.

Апресян Ю.Д. (ред.) Языковая картина мира и системная лексикография (отв. ред. Ю. Д. Апресян). М.: "Языки славянских культур", 2006, Предисловие и гл. 1, с.26 -- 74.

Булыгина Т.В., Шмелев А.Д. Языковая концептуализация мира (на материале русской грамматики). М.: Школа "Языки русской культуры", 1997.

Вайнрайх У. Языковые контакты. Киев, 1983.

Вежбицкая А. Семантические универсалии и описание языков. М.: Школа "Языки русской культуры". 1999.

Гальперин И.Р. Текст как объект лингвистического исследования. 6-е изд. М.: ЛКИ, 2008 ("Лингвистическое наследие XX века")

Зализняк А.А. “Русское именное словоизменение” с приложением избранных работ по современному русскому языку и общему языкознанию. М.: Языки славянской культуры, 2002.

Зализняк А.А., Падучева Е.В. К типологии относительного предложения. / Семиотика и информатика, вып. 35. М., 1997, с. 59-107.

Иванов Вяч. Вс.. Лингвистика третьего тысячелетия. Вопросы к будущему. М., 2004. С. 89-100 (11. Языковая ситуация мира и прогноз на ближайшее будущее).

Кибрик А.Е. Очерки по общим и прикладным вопросам языкознания. М.: Изд-во МГУ, 1992.

Кибрик А.Е. Константы и переменные языка. СПб: Алетейя, 2003.

Лабов У. О механизме языковых изменений // Новое в лингвистике. Вып.7. М., 1975. С.320-335.

Лайонз Дж. Лингвистическая семантика: Введение. М.: Языки славянской культуры. 2003.

Лайонс Джон. Язык и лингвистика. Вводный курс. М: УРСС, 2004

Лакофф Дж. Женщины, огонь и опасные вещи: Что категории языка говорят нам о мышлении. М.: Языки славянской культуры. 2004.

Лакофф Дж., Джонсон М . Метафоры, которыми мы живем. Пер. с англ. Изд.2. М.: УРСС. 2008.

Лингвистический энциклопедический словарь / Под ред. В.И. Ярцевой. М.: Научное изд-во «Большая российская энциклопедия», 2002.

Мельчук И.А. Курс общей морфологии. Тт. I-IV. Москва-Вена: "Языки славянской культуры", Wiener Slavistischer Almanach, Sonderband 38/1-38/4, 1997-2001.

Мельчук И. А. Опыт теории лингвистических моделей «СМЫСЛ ↔ ТЕКСТ». М.: Школа "Языки русской культуры", 1999.

Фёдорова Л.Л. Семиотика. М., 2004.

Филиппов К. А. Лингвистика текста: Курс лекций - 2-е изд., исп. и доп. Изд. С.-Петерб. ун-та, 2007.

Haspelmath, M., et al . (eds.). World Atlas of Language Structures. Oxford, 2005.

Dryer, M.S. and Haspelmath, M. (eds.) The World Atlas of Language Structures Online. Leipzig: Max Planck Institute for Evolutionary Anthropology, 2013. (http://wals.info)

Croft W. Typology and Universals. Cambridge: Cambridge University Press, 2003. Shopen, T. (ed.) . Language Typology and Syntactic Description. 2nd edition. Cambridge, 2007.

В. И. Беликов. О словарях, «содержащих нормы современного русского литературного языка при его использовании в качестве государственного языка Российской Федерации». 2010 // Портал Грамота.Ру (http://gramota.ru/biblio/research/slovari-norm)

Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 1-11. - М.: Изд-во Наука, из-во РГГУ, 2002-2012. (Статьи по компьютерной лингвистике, http://www.dialog-21.ru) .

Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы. / Отв. ред. В. А. Плунгян. - СПб.: Нестор-История, 2009.

Новое в зарубежной лингвистике. Вып. XXIV, Компьютерная лингвистика / Сост. Б. Ю. Городецкий. М.: Прогресс, 1989.

Шимчук Э. Г. Русская лексикография: Учебное пособие. М.: Академия, 2009.

Национальный корпус русского языка: 2003-2005. Сборник статей. М.: Индрик, 2005.

Для контактов:

Учебно-научный центр компьютерной лингвистики Института лингвистики РГГУ

На филфаке Высшей школы экономики запускается новая магистерская программа, посвященная компьютерной лингвистике: тут ждут абитуриентов с гуманитарным и математическим базовым образованием и всех, кому интересно решать задачи в одной из самых перспективных отраслей науки. Ее руководитель Анастасия Бонч-Осмоловская рассказала «Теориям и практикам», что такое компьютерная лингвистика, почему роботы не заменят человека и чему будут учить в магистратуре ВШЭ по компьютерной лингвистике.

Эта программа - чуть ли не единственная такого рода в России. А вы где сами учились?

Я училась в МГУ на отделении теоретической и прикладной лингвистики филологического факультета. Попала туда не сразу, сначала поступила на русское отделение, но потом всерьез увлеклась лингвистикой, и меня привлекла атмосфера, которая остается на кафедре сих пор. Самое главное там - хороший контакт между преподавателями и студентами и их взаимная заинтересованность.

Когда у меня родились дети и надо было зарабатывать на жизнь, я пошла в сферу коммерческой лингвистики. В 2005 году было не очень понятно, что представляет из себя эта область деятельности как таковая. Я работала в разных лингвистических фирмах: начинала с небольшой фирмы при сайте Public.ru - это такая библиотека СМИ, там я начала заниматься лингвистическими технологиями. Потом год работала в Роснанотехе, где была идея сделать аналитических портал, чтобы данные на нем автоматически структурировались. Потом я руководила лингвистическим отделом в компании «Авикомп» - это уже серьезное производство в области компьютерной лингвистики и семантических технологий. Параллельно я вела курс по компьютерной лингвистике в МГУ и старалась сделать его более современным.

Два ресурса для лингвиста: - сайт, созданный лингвистами для научных и прикладных исследований, связанных с русским языком. Это модель русского языка, представленная с помощью огромного массива текстов разных жанров и периодов. Тексты снабжены лингвистической разметкой, с помощью которой можно получать информацию о частотности тех или иных языковых явлений. Ворднет - огромная лексическая база английского языка, главная идея Ворднета - связать в одну большую сеть не слова, но их смыслы. Ворднет можно скачивать и использовать для собственных проектов.

А чем занимается компьютерная лингвистика?

Это максимально междисциплинарная область. Тут самое главное понимать, что творится в электронном мире и кто тебе поможет сделать конкретные вещи.

Нас окружает очень большое количество дигитальной информации, существует множество бизнес-проектов, успех которых зависит от обработки информации, эти проекты могут относиться к сфере маркетинга, политики, экономики и чего угодно. И очень важно уметь обращаться с этой информацией эффективно - главное не только быстрота обработки информации, но и легкость, с которой ты можешь, отсеяв шум, достать те данные, которые тебе нужны, и создать из них цельную картину.

Раньше с компьютерной лингвистикой были связаны какие-то глобальные идеи, например: люди думали, что машинный перевод заменит человеческий, вместо людей будут работать роботы. Но сейчас это кажется утопией, и машинный перевод используется в поисковых системах для быстрого поиска на незнакомом языке. То есть сейчас лингвистика редко занимается абстрактными задачами - в основном какими-то маленькими штучками, которые можно вставить в большой продукт и на этом заработать.

Одна из больших задач современной лингвистики - семантический web, когда поиск происходит не просто по совпадению слов, а по смыслу, а все сайты так или иначе размечены по семантике. Это может быть полезно, например, для полицейских или медицинских отчетов, которые пишутся каждый день. Анализ внутренних связей дает много нужной информации, а читать и считать это вручную невероятно долго.

В двух словах, у нас есть тысяча текстов, надо разложить их по кучкам, представить каждый текст в виде структуры и получить таблицу, с которой уже можно работать. Это называется обработка неструктурированной информации. С другой стороны, компьютерная лингвистика занимается, например, созданием искусственных текстов. Есть такая компания, которая придумала механизм генерации текстов на темы, на которые человеку писать скучно: изменение цен на недвижимость, прогноз погоды, отчет о футбольных матчах. Заказывать человеку эти тексты гораздо дороже, притом компьютерные тексты на такие темы написаны связным человеческим языком.

Разработками в области поиска неструктурированной информации в России активно занимается «Яндекс», «Лаборатория Касперского» нанимает исследовательские группы, которые изучают машинное обучение. Кто-то на рынке пытается придумать что-то новое в области компьютерной лингвистики?

**Книги по компьютерной лингвистике:**

Daniel Jurafsky, Speech and Language Processing

Кристофер Маннинг, Прабхакар Рагхаван, Хайнрих Шютце, «Введение в информационный поиск»

Яков Тестелец, «Введение в общий синтаксис»

Большинство лингвистических разработок является собственностью больших компаний, практически ничего нельзя найти в открытом доступе. Это тормозит развитие отрасли, у нас нет свободного лингвистического рынка, коробочных решений.

Кроме того, не хватает полноценных информационных ресурсов. Есть такой проект, как Национальный корпус русского языка . Это один из лучших национальных корпусов в мире, который стремительно развивается и открывает невероятные возможности по научным и прикладным исследованиям. Разница примерно как в биологии - до ДНК-исследований и после.

Но многие ресурсы не существуют на русском языке. Так, нет аналога такому замечательному англоязычному ресурсу, как Framenet - это такая концептуальная сеть, где формально представлены все возможные связи какого-то конкретного слова с другими словами. Например, есть слово «летать» - кто может летать, куда, с каким предлогом употребляется это слово, с какими словами оно сочетается и так далее. Этот ресурс помогает связать язык с реальной жизнью, то есть проследить, как ведет себя конкретное слово на уровне морфологии и синтаксиса. Это очень полезно.

В компании Avicomp сейчас разрабатывается плагин для поиска близких по содержанию статей. То есть если вас заинтересовала какая-то статья, вы можете оперативно посмотреть историю сюжета: когда тема возникла, что писалось и когда был пик интереса к этой проблеме. Например, с помощью этого плагина можно будет, оттолкнувшись от статьи, посвященной событиям в Сирии, очень быстро увидеть, как в течение последнего года развивались там события.

Как будет построен процесс обучения в магистратуре?

Обучение в Вышке организовано по отдельным модулям - как в западных университетах. Студенты будут разделены на маленькие команды, мини-стартапы - то есть на выходе мы должны получить несколько готовых проектов. Мы хотим получить реальные продукты, которые потом откроем людям и оставим в открытом доступе.

Кроме непосредственных руководителей проектов студентов, мы хотим найти им кураторов из числа их потенциальных работодателей - из того же «Яндекса», например, которые тоже будут играть в эту игру и давать студентам какие-то советы.

Я надеюсь, что в магистратуру придут люди из самых разных областей: программисты, лингвисты, социологи, маркетологи. У нас будет несколько адаптационных курсов по лингвистике, математике и программированию. Потом у нас будет два серьезных курса по лингвистике, и они будут связаны с самыми актуальными лингвистическими теориями, мы хотим, чтобы наши выпускники были в состоянии читать и понимать современные лингвистические статьи. То же самое и с математикой. У нас будет курс, который будет называться «Математические основания компьютерной лингвистики», где будут излагаться те разделы математики, на которых зиждется современная компьютерная лингвистика.

Для того чтобы поступить в магистратуру, нужно сдать вступительный экзамен по языку и пройти конкурс портфолио.

Кроме основных курсов будут линейки предметов по выбору Мы запланировали несколько циклов - два из них ориентированы на более глубокое изучение отдельных тем, к которым относятся, например, машинный перевод и корпусная лингвистика, и, а один, наоборот, связан со смежными областями: такими как, социальные сети, машинное обучение или Digital Humanities - курс, который как мы надеемся, будем прочитан на английском языке.

Тимофеева Мария Кирилловна
Доктор филологических наук, старший научный сотрудник лаборатории логических систем Института математики им. С.Л. Соболева СО РАН, заведующая кафедрой фундаментальной и прикладной лингвистики Гуманитарного института НГУ. Закончила отделение математической лингвистики Гуманитарного факультета Новосибирского государственного университета.
Сфера научных интересов: философско-методологические основания лингвистики, логические проблемы семантики и прагматики естественного языка, функциональные математические модели естественного языка, естественные и формальные языки.

Стукачев Алексей Ильич
Кандидат физико-математических наук, доцент, старший научный сотрудник Института математики им. С.Л. Соболева СО РАН, доцент кафедры дискретной математики и информатики Механико-математического факультета НГУ, доцент кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ
Сфера научных интересов: математическая логика, теория вычислимости (обобщенная вычислимость, вычислимость в допустимых множествах, HF-вычислимость), теория моделей (конструктивные модели, эффективные представления систем, степени представимости), вычислимый анализ. Математическая лингвистика: формальная семантика, семантика Монтегю, дистрибутивная семантика.

Барахнин Владимир Борисович
Ведущий научный сотрудник лаборатории информационных ресурсов Института вычислительных технологий СО РАН, профессор кафедры математического моделирования Механико-математического факультета НГУ, профессор кафедры систем информатики и общей информатики Факультета информационных технологий НГУ.
Сфера научных интересов: построение моделей распределенных информационных систем, создание алгоритмов обработки слабоструктурированных текстовых документов, автоматизация комплексного анализа поэтических текстов, методологические вопросы информатики.

Бручес Елена Павловна
Аспирант Института системы информатики им. А. П. Ершова СО РАН, ассистент кафедры фундаментальной и прикладной лингвистики Гуманитарного института НГУ, компьютерный лингвист в компании "OnPositive".
Сфера научных интересов: обработка естественных языков, машинное обучение, искусственный интеллект.

Павловский Евгений Николаевич
Кандидат физико-математических наук, член Совета молодых учёных и специалистов при Правительстве НСО, член экспертного совета Технопарка новосибирского Академгородка, председатель оргкомитета конференции Siberian Symposium on Data Science and Engineering.
Профессиональная цель: систематизация подходов к формализации бизнес-требований в проектах больших данных.

Пальчунов Дмитрий Евгеньевич
Ведущий научный сотрудник Института математики им. С. Л. Соболева СО РАН, заведующий кафедрой общей информатики НГУ, заведующий отделом "Институт дискретной математики и информатики" Механико-математического факультета НГУ.
Сфера научных интересов: Получены основополагающие результаты по исследованию булевых алгебр с выделенными идеалами (I-алгебр).

Свириденко Дмитрий Иванович
Сотрудник Института математики СО РАН и НГУ, бизнесмен, организатор и совладельц высокотехнологичных компаний, работающих в области информационных, коммуникационных и цифровых технологий. Принимает участие в исследованиях по семантическому моделированию, финансируемых грантом РНФ.
Сфера научных интересов: философия, методология, прикладная математическая логика. Автор концепции и математической теории семантического моделирования, выдвинутой совместно с академиками РАН С.С.Гончаровым и Ю.Л.Ершовым в 80-е годы прошлого столетия. В настоящее время продолжает активно развивать методологию и математическую теорию данной концепции, а также занимается приложениями этой концепции к различным областям. Работает над созданием методологии, математической теории, и языка семантических умных сделок и контрактов, применением идей семантического моделирования применительно к ТРИЗ и другим областям.

Савостьянов Александр Николаевич
Ведущий научный сотрудник в лаборатории дифференциальной психофизиологии Научно-исследовательского института физиологии и фундаментальной медицины, заведующий лабораторией психологической генетики Института цитологии и генетики СО РАН, профессор кафедры общей информатики Факультета информационных технологи НГУ, профессор кафедры фундаментальной и прикладной лингвистики гуманитарного института НГУ.
Научные интересы: нейрофизиология, психогенетика, нейролингвистика, методы компьютерной обработки биологических сигналов. Исследования направлены на выявление факторов риска появления и развития аффективных патологий у человека в зависимости от социальных и климатических условий жизнедеятельности. В рамках исследований проводятся экспедиции в различные регионы России (Новосибирская область, Тыва, Якутия, Республика Алтай) и соседних стран (Монголия, Китай) для сбора биологического материала и коллекции ЭЭГ-записей в различных экспериментальных условиях. Целью исследований является создание диагностических систем, позволяющих оценить риск нарушения эмоционального регулирования поведения человека в условиях повышенной стрессогенной нагрузки.

Компьютерные лингвисты занимаются разработкой алгоритмов распознавания текста и звучащей речи, синтезом искусственной речи, созданием систем семантического перевода и самим развитием искусственного интеллекта (в классическом смысле слова - как замена человеческому - он вряд ли когда-нибудь появится, но зато возникнут различные экспертные системы, основанные на анализе данных).

Алгоритмы распознавания речи будут все больше использоваться в быту - у «умных домов» и электронных приборов не будет пультов и кнопок, а вместо них будет использоваться голосовой интерфейс. Эта технология оттачивается, но вызовов еще много: компьютеру сложно распознать человеческую речь, потому что разные люди говорят очень по-разному. Поэтому, как правило, системы распознавания работают хорошо либо когда они натренированы на одного диктора и уже подстроены под его особенности произношения, либо когда количество фраз, которые может распознать система, ограничено (как, к примеру, в голосовых командах для телевизора).

У специалистов по созданию программ семантического перевода впереди еще много работы: на данный момент неплохие алгоритмы разработаны только для перевода на английский и с английского. Тут много проблем - разные языки по-разному устроены в семантическом плане, это различается даже на уровне построения фраз, и не все смыслы одного языка можно передать с помощью семантического аппарата другого. Кроме того, программа должна различать омонимы, правильно распознавать части речи, выбрать правильное значение многозначного слова, подходящее к контексту.

Синтез искусственной речи (например, для домашних роботов) - тоже кропотливая работа. Сложно сделать так, чтобы искусственно созданная речь звучала естественно для человеческого уха, ведь есть миллионы нюансов, на которые мы не обращаем внимания, но без которых все уже не «то» - фальстарты, паузы, заминки и т.д. Речевой поток непрерывен и одновременно дискретен: мы говорим, не делая паузы между словами, но нам нетрудно понять, где заканчивается одно слово и начинается другое, а для машины это будет большая проблема.

Самое большое направление в компьютерной лингвистике связано с Big Data. Ведь существуют огромные корпуса текстов типа новостных лент, из которых нужно вычленять определенную информацию - например, выделять инфоповоды или затачивать RSS под вкусы определенного пользователя. Такие технологии есть уже cейчас и будет развиваться дальше, потому что вычислительные мощности стремительно растут. Лингвистический анализ текстов используется и при обеспечении безопасности в интернете, поиске необходимой информации для спецслужб.

Где учиться на компьютерного лингвиста? У нас, к сожалению, довольно сильно разделены специальности, связанные с классической лингвистикой, и программирование, статистика, анализ данных. А для того, чтобы стать цифровым лингвистом, нужно разбираться и в том, и в другом. В зарубежных вузах есть программы высшего образования по компьютерной лингвистике, а у нас пока оптимальный вариант - получить базовое лингвистическое образование, а потом освоить основы IT. Хорошо, что сейчас есть много разных онлайн-курсов, к сожалению, в мои студенческие годы такого не было. Я училась на факультете прикладной лингвистике в МГЛУ, где у нас были курсы по искусственному интеллекту и распознаванию устной речи - но все-таки в недостаточном объеме. Сейчас IT-компании активно пытаются взаимодействовать с институтами. Мы с коллегами из «Лаборатории Касперского» тоже стараемся участвовать в образовательном процессе: читаем лекции, проводим студенческие конференции, даем гранты аспирантам. Но пока инициатива больше исходит от работодателей, чем от университетов.

Введение

Что такое компьютерная лингвистика?

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА , направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. Собственно, только в последнем случае и идет речь о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке. На практике, однако, к компьютерной лингвистике относят практически все, что связано с использованием компьютеров в языкознании.

Как особое научное направление компьютерная лингвистика оформилась в 1960-е годы. Русский термин «компьютерная лингвистика» является калькой с английского computational linguistics. Поскольку прилагательное computational по-русски может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативной лингвистики». Поток публикаций в этой области очень велик. Кроме тематических сборников, в США ежеквартально выходит журнал «Компьютерная лингвистика». Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике, которая имеет региональные структуры (в частности, европейское отделение). Каждые два года проходят международные конференции по компьютерной лингвистике – COLING. Соответствующая проблематика обычно бывает широко представлена также на различных конференциях по искусственному интеллекту.

Задачи

Компьютерная лингвистика берет на себя собственно лингвистические проблемы компьютерного моделирования языковой деятельности. Ее задачи – построение более точных и более полных лингвистических моделей и более совершенных алгоритмов анализа и синтеза.

В качестве основных направлений можно выделить:

1) Взаимодействие человека и ЭВМ: управление – языки программирования, передача информации – интерфейс.

2) Работа с текстами: индексирование, анализ и классификация, автоматическое редактирование (исправление ошибок), выявление знаний, машинный перевод.

История

Простое порождение подмножества английского языка для обращения к базам данных было обеспечено одной из ранних американских систем LIFER (Languagе Interface Facility wich Elipsis and Recursion), созданной в 70-е годы. Вслед за ней на компьютерном рынке появились и другие, более гибкие системы, обеспечивающие ограниченный естественно-языковой интерфейс с ЭВМ.

В 80-е годы в США образовался ряд компаний, занимающихся разработкой и продажей естественно-языковых интерфейсов с базами данных, экспертными системами. В 1985г. Корпорация "Семантек" представила такой пакет программ Q&A, компания "Карнеги Группа" предложила аналогичный пакет LanguageCraft.

Ведутся активные работы по созданию систем автоматического перевода. Получила распространение система автоматического перевода SYSTRAN, разработанная под руководством Д. Тома по заказу военно-воздушных сил США. В течение 1974 - 1975 гг. система была использована аэрокосмической ассоциацией NASA для перевода документов по проекту Аполлон-Союз. В наше время она переводит с нескольких языков около 100 000 страниц ежегодно.

В Европе работы по созданию компьютерных систем перевода стимулировались образованием Европейской информационной Сети (EURONET DIANA). В 1982 г. Европейское экономическое сообщество объявило о создании европейской программы EUROTRA, цель которой – разработка системы компьютерного перевода для всех европейских языков. Первоначально проект оценивался в 12 млн долларов, в 1987 г. специалисты определили суммарные расходы по этому проекту более чем в 160 млн долларов.

В Японии исследования по компьютерной лингвистике концентрируются вокруг общенациональной программы создания компьютеров пятого поколения, объявленной в 1981 г.

Существует ряд военных проектов создания человеко-машинных интерфейсов на естественном языке. В США они ведутся в основном в рамках стратегической компьютерной инициативы - десятилетней программы, принятой министерством обороны в 1983 г. Цель ее - создание нового поколения "интеллектуальных" оружия и военных систем с целью обеспечить многолетнее технологическое превосходство США.

Естественно, что специалисты по искусственному интеллекту, прекрасно разбирающиеся в компьютерах и языках программирования, энергично принялись за решение проблемы понимания языка своими методами. Шел поиск алгоритмов естественного языка. Были созданы сложные программы понимания языка для очень узких специальных областей, реализованы программы частичного машинного перевода и ряд других. Но решающего продвижения в решении проблемы понимания языка так и не было. Язык и человек настолько связаны, что ученым пришлось заняться проблемой понимания мира человеком. А это уже область философии.

Базовые понятия лингвистики