Конференция AINL 2013:
Искусственный Интеллект, Естественный Язык
17-18 мая 2013, Санкт-Петербург

Natural Language Processing (автоматическая обработка естественного языка)

Сергей Серебряков

(подробнее 1, 2)

HP Labs

В 2004 году получил степень магистра техники и технологии по направлению <Системный анализ и управление> в СПбГПУ. В 2008 году защитил
кандидатскую диссертацию в Санкт-Петербургском институте информатики и автоматизации РАН (СПИИРАН).

С августа 2010 года по настоящее время работаю в российском отделении HP Labs в должности инженера исследователя.

Тема: Извлечение событий из текстовых документов

Секция: Text mining

Извлечение событий (event extraction) является одной из основных задач в области поиска и извлечения инфорамации и обработки естественного языка. События, извлеченные из неструктурированных документов (новостные статьи, твитты, rss ленты и т.п.) ассматриваются в качестве входных данных для различных типов бизнес-приложений, таких, например, как имеющих дело со сложной обработкой событий (complex event processing), прогнозного анализа (predictive analytics), управления бизнес-процессами и т.д. Чтобы быть эффективным, алгоритм извлечения событий должен быть (1) быстрым, чтобы извлекать информацию с минимальной задержкой (2) в состоянии извлекать события с богатым набором атрибутов чтобы использовать всю доступную информацию с целью анализа и понимания контекста и (3) быть способным к извлечению событий в новых областях с целью покрытия большего количество бизнесс событий. В презентации мы представим и продемонстрируем наш подход к извлечению событий из неструктурированных документов. В частности, мы покажем, что наш алгоритм обрабатывает типичный документ размером 30Кб (новостная статья) в диапазоне до 50 мс что позволяет применять алгоритм в тех случаях, когда документы должна быть обработаны с минимальной задержкой.

Event extraction is one of the major tasks in information extraction and natural language processing. Events extracted from unstructured documents (free texts) and presented in the structured form are considered as an input data for different types of business applications, such as those doing complex event processing (CEP), predictive analytics, business process management etc. To be efficient, event extraction algorithm should be (1) fast, so, that it could be applied online and information is processed with minimal latency; (2) able to extract events with rich set of attributes to utilize as much information as possible and understand context and (3) applicable to new domains to cover the larger set of recognized events. Up to authors' knowledge, there are no implementations of event extraction engines that simultaneously cover all the mentioned challenges. In our presentation we will present and demonstrate our approach to event extraction from unstructured documents. Particularly, we are expecting our algorithm to
process typical document of 30Kb (news articles) in range of 50ms thus making it possible to apply event extraction in cases where information must be processed with minimal latency. We will demonstrate that developed mechanism of information extraction together with the domain specific extraction rules allows us to extract as much events' attributes as possible. We will outline our approach and current progress in developing domain independent event extraction engine.