Конференция AINL 2013:
Искусственный Интеллект, Естественный Язык
17-18 мая 2013, Санкт-Петербург

Natural Language Processing (автоматическая обработка естественного языка)

Владимир Добрынин

(подробнее)

СПбГУ, доцент
Sophia Search Ltd

Работаю в области информационного поиска с 1997 года. Интересы: кластеризация текстов, семантический поиск, семиотика.

Тема: Автоматическое выделение тем из корпуса New York Times 1987 - 2007 и их отображение в новостную таксономию IPTC

Секция: Постер

Представлены результаты обработки корпуса документов NYTimes 1987 – 2007 (1, 053,037,650 токенов) системой Sophia (www.sophiasearch.com), выполняющей кластеризацию (13,177 кластеров), группировку кластеров в темы (4,258 тем) и генерацию имен тем для указанного корпуса. Полученная структура тем сопоставляется с новостной таксономией IPTC - InternationalPressTelecommunicationsCouncil, MediaTopicTaxonomy (http://cv.iptc.org/newscodes/mediatopic) –1,128 категорий. Отображение типа многие ко многим между категориями таксономии и темами в NYTвыполняется автоматически на основе использование названий категорий и их описаний. Приведен пример отображения категорий и тем из области музыки.