Конференция AINL 2013:
Искусственный Интеллект, Естественный Язык
17-18 мая 2013, Санкт-Петербург

Natural Language Processing (автоматическая обработка естественного языка)

Антон Казенников

(подробнее)

ИППИ РАН

Родился в Москве, 27 лет. В 2007 закончил МИРЭА (Московский государственный институт радиотехники, электроники и автоматики), 2007 - н.в. младший научный сотрудник ИППИ РАН

Тема: Сокращение с помощью хеш-функций моделей машинного обучения для задач автоматической обработки текстов

Секция: Постер

Значительная часть задач автоматической обработки текстов может быть представлена как задача классификации. В таком случае стоит выбор использования линейных или нелинейных подходов. Особенностью нелинейных моделей является учет нелинейных связей между признаками. Самым большим недостатком является то, что практически все алгоритмы плохо масштабируются на большие объемы данных. Основными достоинствами линейных моделей являются простота и высокая скорость обучения. Например, линейный SVM может легко обучаться на миллионах и десятках миллионов примерах на обычном персональном компьютере. Недостатком является то, что качество модели сильно зависит от используемых признаков, а учет нелинейных особенностей задачи полностью лежит на авторе модели признаков.

Например, если SVM с квадратичным ядром может обучаться на парах слов при заданных отдельных словах в качестве признаков, то для линейного SVM эти пары надо задавать явно. Из-за этого резко возрастает размер модели, а кроме того возрастает и словарь — способ преобразования признаков в координаты гильбертова пространства.

В настоящей работе исследуется метод сокращения размера линейных моделей на основе хеш-функций. Он с одной стороны позволяет отказаться от хранения словаря, а с другой - позволяет гибко изменять размер модели. В качестве примера была использована задача разрешения морфологической омонимии. Для исследования свойств метода хеш-функций были использованы два набора морфологических признаков: базовый (только части речи) и расширенный (части речи + падеж). В ходе экспериментов было установлено, что метод на основе хеш-функций позволяет сократить размер модели до 30 раз без существенной потери качества.