Конференция AINL 2013:
Искусственный Интеллект, Естественный Язык
17-18 мая 2013, Санкт-Петербург

Natural Language Processing (автоматическая обработка естественного языка)

Эдуард Клышинский

(подробно)

МИЭМ НИУ ВШЭ, каф. ИТАС, доцент

Родился в 1974 году. Окончил МИЭМ в 1997. В 2000 защитил кандидатскую диссертацию в области имитационного моделирования. Под руководством успешно защищено 2 кандидатские диссертации.

Тема: Метод выделения словаря моделей управления для глаголов русского языка

Секция: Data Mining



Словарь моделей управления для глаголов является важным источником информации. При автоматическом анализе текстов он позволяет решать такие задачи, как снятие омонимии, синтаксической неоднозначности, проверка корректности построения предложения. Ранее проводились работы по автоматическому извлечению словаря моделей управления из корпуса текстов. Для этих целей использовался синтаксический анализ различной степени полноты. Из полученных деревьев зависимостей далее извлекалась информация о существительных, подчиненных глаголу. За счет высокой полноты анализа извлекалась информация о сочетаемости существительных, связанных с глаголом. Однако, получаемая точность оказывалась недостаточна для того, чтобы получить точную и полную модель управления для значимого числа глаголов. В рассматриваемом подходе предлагается сократить полноту выдачи, повысив при этом точность выделения почти до 100%. Полученное сокращение объемов информации предлагается компенсировать за счет повышения объемов рассматриваемых корпусов. Метод состоит из нескольких этапов. На первом этапе из текста извлекаются связанные последовательности слов, отвечающих заданным требованиям. При этом постулируется синтаксическая связность слов в выделенных конструкциях. Далее проводится подсчет статистики встречаемости сочетаний слов и отсев редко встречающихся конструкций. На следующем шаге вручную была определена сочетаемость предлогов с различными падежами. На последнем этапе были отсеяны шумы и составлена модель управления для глаголов.