Семинар: Natural Language Processing
(автоматическая обработка естественного языка)

Natural Language Processing (автоматическая обработка естественного языка)
15 Сентябрь 2012


Адаптация англоязычной системы извлечения инфоромации к русскому языку

Лидия Пивоварова (Университет Хельсинки, СПбГУ)

Категория: Осень 2012.

Семинар прошел 21.04.2012

Доклад посвящен разработке встроенного компонента анализа русскоязычных текстов для системы PULS (http://puls.cs.helsinki.fi/puls/databases/). PULS - система извлечения информации из текста, которая в настоящее время работает с тремя сценариями: массовые инфекционные заболевания, пограничная безопасность и бизнес-новости. Система может относительно просто расширяться на другие сценарии, однако до последнего времени она работала преимущественно с английским языком. Анализ русскоязычных текстов открывает доступ к сбору информации о событиях, происходящих на територрии бывшего Советского Союза, включая регионы, информация о которых не представлена в англоязычных источниках или появляется с сильным запаздыванием. Анализ русскоязычных текстов в данный момент реализован для двух сценариев: инфекционные заболевания и пограничная безопасность. Разрабатывая модуль Information Extraction для русского языка, мы старались максимально использовать уже существующие компоненты PULS. Такой подход не только ускорил разработку фактографического поиска для русскоязычных текстов, но и позволил легко встроить его в общую систему анализа информации. В настоящее время все инструменты PULS, не связанные непосредственно с анализом текста (поиск по базе данных, группировка событий и пр.), работают со всеми фактами независимо от того, на каком языке они были найдены. В докладе будут подробно описаны модули анализа текста, включая морфо-синтаксический анализ (на основе АОТ), поисковые образцы и правила вывода, а также онтология и словари, используемые системой Information Extraction. Также в докладе будет обрисован эксперимент по оценке совместной работы компонента Information Extraction, основанного на правилах, и классификатора релевантности, основанного на машинном обучении.