Конференция AINL 2013:
Искусственный Интеллект, Естественный Язык
17-18 мая 2013, Санкт-Петербург

Natural Language Processing (автоматическая обработка естественного языка)

Анатолий Старостин

ABBYY
Инфопоиск, руководитель группы семантического анализа

Родился 15 июля 1983 года. В 2004 году окончил ф-т ВМиК МГУ. В 2007 году закончил аспирантуру кафедры Алгоритмических Языков ВМиК МГУ. С 2004 по 2010 год работал программистом в компании Авикомп Сервисез. С апреля 2010 возглавляет группу семантического анализа в компании ABBYY. В данный момент работает над диссертацией в области автоматического синтаксического анализа естественного языка.

Тема: Использование технологии ABBYY Compreno для обработки текстов на естественном языке

В докладе будет рассмотрена технология ABBYY Compreno, разрабатываемая в компании ABBYY в течение последних 15 лет. Изначально технология была ориентирована на задачу машинного еревода и в данный момент эта задача успешно решается с ее помощью (для перевода с английского языка на русский и обратно). В ходе разработки описываемой технологии делалась установка на детальное описание и моделирование значительной части явлений естественного языка. Технология включает в себя формальные средства для описания морфологии, синтаксиса и семантики. Основной отличительной чертой описываемой технологии от других решений в области машинного перевода (и обработки естественного языка вообще) является ее масштаб – в рамках технологии задействовано беспрецедентное количество согласованных между собой формальных средств. Основной целью доклада является демонстрация такого комплекса решений в качестве универсального механизма для работы с естественным языком. Следует отметить, что некоторые элементы (алгоритмы, формальные языки и т.п.), используемые в рамках технологии имеют аналоги, описанные в литературе. В ходе доклада соответствующие ссылки будут даны. Будут обсуждаться следующие компоненты технологии ABBYY Compreno:

• Универсальная иерархия семантических классов (понятий)

• Механизм семантико-синтаксического анализа

• Использование недревесных связей в процессе семантико-синтаксического анализа

• Работа со словосочетаниями

• Обработка эллипсиса

Заключительная часть доклада будет посвящена возможностям использования технологии ABBYY Compreno для решения задач в области обработки текстов, отличных от задачи машинного перевода.