Семинар: Natural Language Processing
(автоматическая обработка естественного языка)

Natural Language Processing (автоматическая обработка естественного языка)
20 Март 2010


Построение машинно-читаемого словаря на основе Русского Викисловаря

Андрей Крижановский

Категория: Весна 2010.

Для хранения лексикографической информации Русского Викисловаря разработаны (1) правила (на основе регулярных выражений) извлечения текстовых данных, (2) структура базы данных для хранения данных, (3) программный интерфейс к этой базе данных. Созданный машинно-читаемый словарь был использован в эксперименте для сравнения алгоритмов, вычисляющих семантическое расстояние на основе данных Русского Викисловаря и WordNet. Алгоритмы и метрики оценивались с помощью тестовой коллекции (из 353 пар английских слов), включающей оценку экспертов. Эксперимент показал, что предложенный метод позволяет вычислить семантическое расстояние между парой слов, в принципе, на любом из языков, представленных в Русском Викисловаре.