Конференция AINL 2013:
Искусственный Интеллект, Естественный Язык
17-18 мая 2013, Санкт-Петербург

Natural Language Processing (автоматическая обработка естественного языка)

Ю.Акинина, А.Бонч-Осмоловская

НИУ ВШЭ

Анастасия Бонч-Осмоловская

Образование: Отделение теоретической и прикладной лингвистики филологической факультета  МГУ, кандидат филологических наук.

В настоящее время преподает на филологическом факультете НИУ ВШЭ и на ОТиПЛе МГУ. Также является сотрудником Центра Семантических Технологий НИУ ВШЭ.

Опыт работы в области компьютерной лингвистики: компания Smartware ( Public.ru), Роснанотех, RСO, Авикомп

Юлия Акинина

В 2006 году окончила Лицей №1553 На Донской и поступила на отделение теоретической и прикладной лингвистики филфака МГУ. В 2011 защитила диплом по специальности "Теория языка". С 2010 года - сотрудник ЗАО «Авикомп-сервисез», с  2011 года работает в  Центре Семантических Технологий НИУ ВШЭ.

Тема: Роль общей и специфической лексики при извлечении информации из текста

Секция: Text Mining

Цель исследования, представленного в докладе,  - оценить роль и взаимодействие общей и специфической лексики при извлечении информации из текстов.

Существует достаточно много областей знаний (например, спорт, медицина, экономика и др.),  в которых, с одной стороны, явным образом выделяются тематические категории со своей специфической лексикой, а с другой стороны, имеется универсальный обобщенный событийный ряд, определяющий отношения между ключевыми объектами в  каждой такой категории. Таким образом, для решения задачи по извлечению типового универсального события в области знания, состоящей из множества тематических подкатегорий, встает вопрос о том, в какой степени алгоритмы извлечения должны опираться на специфическую лексику каждой тематики или же на универсальную лексику, описывающую общие события.

В рамках исследования были проведены эксперименты по извлечению информации, характеризующей экономическое состояние предприятий разных отраслей. Было выбрано универсальное событие <<ввод новых технологий>> и была поставлена задача извлечение объектов с ролью <<компания-инноватор>>. Первый эксперимент оценивал то, насколько успешно происходит извлечение актора-инноватора при обучении с помощью универсальной лексики со значением инноваций. Во втором эксперименте использовался экспертный специфический список слов для одной из отраслей. В третьем эксперименте были использованы оба списка слов.

Эксперименты были проведены с помощью лингвистических инструментов Ontosminer, оценка качества извлечения производилась с помощью соответствующих модулей, предоставляемые платформой Gate.

В докладе обсуждаются проблемы, возникающие в ходе каждого из экспериментов: недостаточная точность извлечения объектов при использовании универсальной лексики, недостаточная полнота при использовании специфической лексики. Объединение общей и специфической лексики в третьем эксперименте улучшает показатели полноты, но требует дополнительных решений, повышающих точность и блокирующих суммирование ошибок при выделении объектов.