Конференция AINL 2013:
Искусственный Интеллект, Естественный Язык
17-18 мая 2013, Санкт-Петербург

Natural Language Processing (автоматическая обработка естественного языка)

Ольга Хомицевич

(подробно 1, 2)

ООО "Центр речевых технологий", старший научный сотрудник

Окончила Филологический факультет СПбГУ, отделение теории языкознания, в 2003 г. В 2008 г. защитила диссертацию (PhD) в Институте лингвистики Утрехтского университета (Utrecht Institute of Linguistics OTS, Нидерланды). С 2007 г. является сотрудником ООО «Центр речевых технологий». Интересы: синтаксис, прикладная лингвистика, автоматическая обработка текста.

Тема: Снятие омонимии и нормализация текста в системе синтеза русской речи

Секция: Речевые технологии



Доклад посвящен проблеме подготовки текста для дальнейшего транскрибирования и озвучивания в системе синтеза речи. Эта процедура включает в себя расшифровку сокращений, цифр, специальных знаков и т.п., а также определение места ударения в слове. Приведение сокращений, цифр и других "нестандартных" форм записи к виду обычных слов представляет достаточно сложную проблему для русского языка, поскольку один и тот же элемент может соответствовать различным формам исходного слова или словосочетания в зависимости от контекста; похожие трудности возникают при выборе правильного ударения и определении наличия буквы "ё" в омонимах (омографах). В идеале, для определения правильных форм нестандартных слов и для снятия омонимии требуется синтаксический, а в некоторых случаях - семантический анализ; однако на практике оказывается, что для правильной обработки большинства случаев достаточно анализа непосредственного окружения слова. В докладе описывается система контекстных правил, с помощью которой может быть успешно расшифрована большая часть неоднозначных записей в произвольном русском тексте. Рассматриваются основные способы анализа контекста и стандартные проблемы, с которыми приходится сталкиваться при выполнении задачи нормализации текста, а также случаи, требующие более глубокого анализа текста.