Семинар: Natural Language Processing
(автоматическая обработка естественного языка)

Natural Language Processing (автоматическая обработка естественного языка)
03 Декабрь 2011


Совмещение «экспертного» и «статистического» подходов к исследованию обсуждений в блогосфере (на примере темы ислама)

Кирилл Маслинский

Категория: Осень 2011.

 Семинар прошел 3.12.2011

Блогосфера как объект социологического или социально-антропологического исследования может рассматриваться, с одной стороны, как сообщество, в котором постоянно протекают социальные процессы, и с другой стороны, — как публичная сфера, доступная для наблюдения более широкого круга интернет-пользователей (не обязательно блогеров). Одна из функций блогосферы в российском обществе — служить ареной политических и других общественно значимых обсуждений. Текстовая природа социальных событий блогосферы (постов и комментариев) и современные возможности по автоматизированному сбору интернет-данных открывают перспективы применения автоматизированных методов анализа для исследования обсуждений в блогосфере. В докладе на примере темы ислама рассматриваются проблемы, связанные с преобразованием исследовательского представления об общественно значимой теме в процедуры автоматического отбора релевантных текстов из коллекции блогов. Кроме того обсуждаются методы оценки правомерности вычленения заданной исследователем темы и её места в структуре обсуждений в блогосфере в целом. В работе использованы два независимых подхода для выявления общей совокупности текстов на заданную тему: традиционный «экспертный», в котором темы отбираются при помощи списка ключевых слов, составленного на основании мнений экспертов, и «статистический», когда тематическая структура текстовой коллекций блогов анализируется полностью автоматически (используется технология Topic modelling, основанная на вычислительной методике Latent dirichlet allocation). В докладе представлена часть результатов работы междисциплинарного исследовательского коллектива в рамках проекта "Разработка методологии сетевого и семантического анализа блогов для социологических задач"*. В качестве материала для исследования использована коллекция текстов русскоязычных блогов Живого журнала (4 млн слов), собранная с помощью специального программного обеспечения, разработанного в рамках проекта.
(*) поддержанного грантом Научного фонда НИУ ВШЭ No. 11-04-0006, 2011-2012, участники: Е.Ю.Кольцова (руководитель), А.В.Кинчарова, Л.М.Пивоварова, К.А.Маслинский, Т.Г.Ефимова, Е.А.Терещенко, Ю.В.Павлова; техподдержка: С.Н.Кольцов, Р.М.Бахмудов.