Семинар: Natural Language Processing
(автоматическая обработка естественного языка)

Natural Language Processing (автоматическая обработка естественного языка)
21 Декабрь 2013


Semi-supervised vs. Cross-domain Graph-based Learning for Sentiment Classification

Наталья Пономарева (Statistical Cybermetrics Research group, University of Wolverhampton)

Категория: Осень 2013.

Доклад посвящен двум подходам машинного обучения в применении к классификации сентиментов (sentiment classification). Первый подход (cross-domain) для обучения модели использует размеченные данные из предметной области, отличной от области тестовых данных. Второй подход (semi-supervised) требует наличия небольшой выборки размеченных данных из той же предметной области, что и тестовые данные.

Центральный метод машинного обучения, используемый в данной работе, состоит в применении алгоритмов на графах. Этот метод был выбран в силу нескольких причин. Во-первых, реализация алгоритмов на графах не зависит от используемого подхода. Во-вторых, различные исследования показали успешность применения данных алгоритмов как при “semi-supervised”, так и при “cross-domain” подходах. Наконец, алгоритмы на графах легко масштабируются для решения задач с миллионами данных, а также без труда адаптируются к задачам со многими классами.

В докладе будет подробно разобран один из популярных алгоритмов на графах – метод распространения разметки (label propagation) и его модификации. Особое внимание будет уделено построению графа, узлами которого являются документы, а ребра соответствуют сходству между сентиментами соответствующих узлов. В частности, будут рассмотрены разные меры сходства между текстами, для выбора меры, которая дает наилучший результат с точки зрения внутренней (intrinsic) и внешней (extrinsic) оценок.

В результате использования алгоритмов на графах при “semi-supervised” и “cross-domain” подходах, будет предложена стратегия, позволяющая выбрать наиболее целесообразный подход в зависимости от имеющихся размеченных и тестовых данных и их свойств.