Конференция AINL 2013:
Искусственный Интеллект, Естественный Язык
17-18 мая 2013, Санкт-Петербург

Natural Language Processing (автоматическая обработка естественного языка)

Валентин Смирнов

(подробнее)

ООО "Спич Драйв", генеральный директор

Выпускник СПбГУ, кафедра математической лингвистики. Эксперт в области распознавания речи, обладающий десятилетним опытом создания коммерческих продуктов на базе этой технологии (как программист и как руководитель). Прошел ряд профилирующих курсов в ведущих европейских речевых лабораториях. Работает в созданной им самим компании Speech Drive. Ведет практический семинар по распознаванию речи в СПбГУ.

Тема: Слово не воробей: система поиска ключевых слов в записях телефонных переговоров

Секция: Речь



В докладе описывается состав модулей Системы поиска ключевых слов в телефонных переговорах «ANALYZE», разработанной компанией Speech Drive.
Данный программный продукт предназначен для лингвистического анализа состава телефонных переговоров компании, например, с целью оценки качества обслуживания клиентов или для повышения безопасности бизнеса.
При поиске слов речевой сигнал, дискретизированный с частотой 8000 Гц, последовательно обрабатывается окном обработки длительностью 24 мсек с перекрытием 50%. Далее вычисляется Mel-спектр на частотах от 300 до 3400Гц, и по энергиям в полосах вычисляются 13 MFCC-коэффициентов, 1-я и 2-я производные. В зависимости от режима работы продукта возможно применение нормализации кепстра.
Для получения транскрипций слов используется морфологический словарь русского языка и контекстные правила для определения исходной формы слова и постановки правильного ударения. После постановки ударения слово из орфографической формы переводится в последовательность фонем по заранее определенным контекстным правилам.
Акустические модели обучаются на базе данных телефонного качества общим объемом около 50 часов, при этом транскрипции строятся автоматически по орфографической аннотации, используются непрерывные контекстно-зависимые Скрытые Марковские Цепи. Кластеризация может производиться двумя способами: по дереву регрессии или по энтропии.
Декодер представляет собой имплементацию beam-поиска по грамматике вида (Word | Fillers | Garbage), где Word — это транскрипция слова в трифонах, Fillers — обобщенные модели звуков речи, Garbage — модель неречевых звуков. Для определения уровня уверенности используется перцептрон с одним скрытым слоем.