Семинар: Natural Language Processing
(автоматическая обработка естественного языка)

Natural Language Processing (автоматическая обработка естественного языка)
15 Май 2010


Рейтинг онлайн-СМИ на основе дублирования новостей

Александр Антонов

Категория: Весна 2010.

– Рейтинг онлайн-СМИ в ситуации большого выбора источников может быть средством как явного вспомогательного инструмента – информации, предоставляемой для пользователя, так и неявного (применения полученных данных для ранжирования новостных сообщений при показе новостей).

– Обзор существующих подходов к составлению публикуемых рейтингов новостных источников. Примеры: Newsknife.com, Webscan, Медиалогия, Hitwise.com, Comscore.com, Nielsen.com, Reddit.com, Digg.com.
– Алгоритм формирования рейтинга новостных источников для ресурса webground.su.
Ранжирование источников основано на информации о группах найденных новостей-дубликатов и признаком времени публикации, приписанном новостям.
Каждое из выделенных подмножеств представляется в виде направленного графа, вершинами которого являются сообщения, а ребрами – отношения в упорядочении внутри подмножества. К построенным графам применен алгоритм PageRank, с помощью которого каждой из вершин-сообщений на графе присваивается соответствующий вес.