Семинар: Natural Language Processing
(автоматическая обработка естественного языка)

Natural Language Processing (автоматическая обработка естественного языка)
28 Февраль 2013


SciNet: Эксплоративный поиск научной литературы

Ксения Конюшкова

Категория: Весна 2013

Ксенией и её коллегами была разработана интерактивная поисковая система научных статей, которая совмещает в себе методы обучения с подкреплением (Reinforcement Machine Learning) и оригинальный интерфейс для того, чтобы активно вовлечь пользователя в управление поисковой сессией. Основная цель системы это исследование информационного пространства, поэтому система позволяет не только найти релевантные документы, но и понять сферу исследований. Данный инструмент предназначен в первую очередь для ситуаций, когда пользователь недостаточно глубоко знаком со сферой поиска или затрудняется сформулировать свой запрос. Эксплоративный подход позволяет предолеть некоторые из проблем традиционного поиска, например, такие как смещение пользовательского акцента поиска.

Пользователь идентифицирует свой поисковый интерес, напрямую манипулируя признаками документов (в данном случае, ключевыми словами), что позволяет спрогнозировать его модель с использованием алгоритмов многоруких бандитов (multi-armed bandits). Была предложена модель визуализации интересов пользователя и предсказанных намерений для него в виде радара, что дает ему возможность эффективно управлять поисковой сессией в любых направлениях. В отличние от стандартного полнотекстового поиска, база документов не статична и меняется на каждой итерации. Кроме того, используемые методы построения модели пользователя могут применяться и в других приложениях, что и было продемонстрировано на примере интерактивного поиска изображений.

Было проведено юзабилити-тестирование системы с 30 участниками, где сравнивались показатели точности, полноты, F-мера, а также удобство использования традиционной и разработанной системы. Исследования подтвердили, что интерактивная поисковая система значительно превосходит традиционную по своей эффективности, предоставляя пользователю доступ к большему количеству релевантной и оригинальной информации, сохраняя при этом ту же точность.