Конференция AINL 2013:
Искусственный Интеллект, Естественный Язык
17-18 мая 2013, Санкт-Петербург

Natural Language Processing (автоматическая обработка естественного языка)

Дмитрий Грановский

(подробнее)

Разработчик в лингвистическом отделе Яндекс, преподаватель в СПбГУ, участник проекта OpenCorpora.org

Тема: Лингвистическая разметка текстов в проекте Открытый корпус

Секция: Постер

Лингвистически размеченные корпуса являются необходимым инструментом для разработки и тестирования программного обеспечения, обрабатывающего тексты. Доступность и разнообразие корпусов - это один из существенных факторов, напрямую влияющий на уровень развития компьютерной лингвистики. В проекте Открытый корпус (OpenCorpora.org) создаётся лингвистическая разметка современных текстов на русском языке. Открытый корпус отличается от других корпусов русских текстов следующими особенностями:

1. Пополнение корпуса и создание разметки выполняется волонтёрами. Разработанные инструменты контроля качества разметки позволяют выявлять случайные ошибки и следить за единообразием разметки.

2. Процедуры разметки упрощены с тем, чтобы снизить порог вхождения для волонтёров. Не обязательно быть экспертом в русском языке, чтобы выполнять большую часть задач.

3. Организована возможность обсуждения разбора каждого предложения, в котором все заинтересованные могут принять участие.

4. Корпус доступен на условиях лицензии Creative Commons - Attribution - ShareAlike, что позволяет всем желающим использовать созданную разметку в своих разработках.

В настоящий момент в корпусе 680 тыс. словоупотреблений с сегментной и метатекстовой разметкой, выполненной вручную. Проведены первые эксперименты по коллективному созданию морфологической разметки. В ходе доклада будут продемонстрированы процедуры разметки и описаны получающиеся в результате данные.