Семинар: Natural Language Processing
(автоматическая обработка естественного языка)

Natural Language Processing (автоматическая обработка естественного языка)
09 Февраль 2008


Информационный поиск в банках текстовых документов

Александр Морозов (Компания «Кодекс»)

Категория: Весна 2008

«Доклад посвящен информационному поиску текстовой информации в документарных коллекциях средних размеров.
Обзорно рассмотрен информационный поиск в целом – вероятностный процесс выявления документов, соответствующих запросу (содержащих искомую информацию), из некоторого множества. Рассмотрены основные модели и структуры данных, применяющиеся при реализации поисковых систем. Подчеркнуты особенности применения таких систем в рамках пользовательских приложений, функционирующих на персональных компьютерах. Описана реализация информационного поиска в продуктах компании «Кодекс».

 

Список литературы и ресурсов

Общее:
1. C.D. Manning, P. Raghavan, H. Schutze: Introduction to Information Retrieval
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html == http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
2. Документация к открытой поисковой системе Xapian
http://xapian.org/docs/index.html == http://xapian.org/docs/index.html
3. И. Сегалович, М. Маслов: Яндекс на РОМИП-2004. Некоторые аспекты полнотекстового поиска и ранжирования в Яндекс
http://www.romip.ru/romip2004/07_yandex.pdf == http://www.romip.ru/romip2004/07_yandex.pdf

Модели и взвешивание:
1. http://xapian.org/docs/intro_ir.html == http://xapian.org/docs/intro_ir.html
2. S.E. Robertson, K. Sparck Jones: Simple, Proven Approaches to Text Retrieval
http://www.cl.cam.ac.uk/techreports/UCAM-CL-TR-356.pdf == http://www.cl.cam.ac.uk/techreports/UCAM-CL-TR-356.pdf
3. N. Fuhr: Probabilistic Models in Information Retrieval
http://www.is.informatik.uni-duisburg.de/bib/pdf/ir/Fuhr:92.pdf == http://www.is.informatik.uni-duisburg.de/bib/pdf/ir/Fuhr:92.pdf
4. I. Ruthven, M. Lamas: A survey on the use of relevance feedback for information access systems
http://inex.is.informatik.uni-duisburg.de:2004/pdf/ker_ruthven_lalmas.pdf == http://inex.is.informatik.uni-duisburg.de:2004/pdf/ker_ruthven_lalmas.pdf

Индексы:
1. J. Zobel, A. Moffat: Inverted Files for Text Search Engines
http://www.seas.upenn.edu/~cse330/docs/InvertedIndex.pdf == http://www.seas.upenn.edu/~cse330/docs/InvertedIndex.pdf
2. J. Zobel, A. Moffat, K. Ramamohanarao: Inverted Files Versus Signature Files for Text Indexing
http://www.cs.rmit.edu.au/~jz/fulltext/acmtods98.pdf == http://www.cs.rmit.edu.au/~jz/fulltext/acmtods98.pdf
3. Тиори Т., Фрай Дж. Проектирование структур баз данных. М, 1985
4. Кнут Д. Искусство программирования. Т.3. Сортировка и поиск. М, 2000

Морфология:
1. I. Segalovich: A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine
http://company.yandex.ru/articles/iseg-las-vegas.html == http://company.yandex.ru/articles/iseg-las-vegas.html
2. K. Kettunen, T. Kunttu, K. Järvelin: To stem or lemmatize a highly inflectional language in a probabilistic IR environment?
http://www.info.uta.fi/tutkimus/fire/archive/kettunen_et_al_full_version_2005.pdf == http://www.info.uta.fi/tutkimus/fire/archive/kettunen_et_al_full_version_2005.pdf

Расширение запроса:
1. R. Mandala, T. Tokunaga, H. Tanaka: Combining General Hand-Made == Hand-Made and Automatically Constructed Thesauri for Information Retrieval
http://dli.iiit.ac.in/ijcai/IJCAI-99%20VOL-2/PDF/037.pdf == http://dli.iiit.ac.in/ijcai/IJCAI-99%20VOL-2/PDF/037.pdf
2. Sadat, F., Maeda, A., Yoshikawa, M. and Uemura, S.: Query Expansion Techniques for the CLEF Bilingual Track. In Proceedings of the CLEF 2001 Cross-Language == Cross-Language System Evaluation Campaign (2001) 99–104
http://www.ercim.org/publication/ws-proceedings/CLEF2/sadat.pdf == http://www.ercim.org/publication/ws-proceedings/CLEF2/sadat.pdf
3. Sadat, F., Yoshikawa, M. and Uemura, S.: Cross-Language == Cross-Language Information Retrieval Using Multiple Resources and Combinations for Query Expansion. In Proceedings of the Second International Conference, ADVIS 2002, Izmir, Turkey (2002) 114–122
http://books.google.com/books?id=cqVGD6C1NGsC&pg=PA114&lpg=PA114&dq=sadat+uemura+Query+Expansion&source=web&ots=S_ZFldTX1k&sig=RgTEoQAQCQxK3E_P8okmMSRSBiI == http://books.google.com/books?id=cqVGD6C1NGsC&pg=PA114&lpg=PA114&dq=sadat+uemura+Query+Expansion&source=web&ots=S_ZFldTX1k&sig=RgTEoQAQCQxK3E_P8okmMSRSBiI
4. P. Ogilvie, J. Callan: The Effectiveness of Query Expansion for Distributed Information Retrieval
http://www.cs.cmu.edu/~pto/papers/CIKM_2001_QE_DIR.pdf == http://www.cs.cmu.edu/~pto/papers/CIKM_2001_QE_DIR.pdf

Аннотирование:
1. П. Браславский, И. Колычев: eXtragon: экспериментальная система для автоматического реферирования веб-документов
http://www.romip.ru/romip2005/03_extragon.pdf == http://www.romip.ru/romip2005/03_extragon.pdf
2. М. Кондратьев: Аннотирование по запросу: связность или информативность?
http://www.romip.ru/romip2005/10_zolushka.pdf == http://www.romip.ru/romip2005/10_zolushka.pdf
3. Shao-Fen == Shao-Fen, Liang Siobhan, D. Tait: Can Automatic Abstracting Improve on Current Extracting Techniques in Aiding Users to Judge the Relevance of Pages in Search Engine Results?
http://www.cs.bham.ac.uk/~mgl/cluk/papers/liang.pdf == http://www.cs.bham.ac.uk/~mgl/cluk/papers/liang.pdf
4. Min-Yen == Min-Yen Kan: Automatic text summarization as applied to information retrieval: Using indicative and informative summaries
http://www.cs.columbia.edu/~min/papers/thesis.ps.gz == http://www.cs.columbia.edu/~min/papers/thesis.ps.gz

Оценка:
1. Кураленок И.Е., Некрестьянов И.С.: Оценка систем текстового поиска
2. K. Järvelin, J. Kekäläinen: IR evaluation methods for retrieving highly relevant documents
http://www.info.uta.fi/tutkimus/fire/archive/KJJKSIGIR00.pdf == http://www.info.uta.fi/tutkimus/fire/archive/KJJKSIGIR00.pdf
3. K. Järvelin, J. Kekäläinen: Cumulated Gain-based Evaluation of IR Techniques
http://www.info.uta.fi/tutkimus/fire/archive/KJJK-nDCG.pdf == http://www.info.uta.fi/tutkimus/fire/archive/KJJK-nDCG.pdf

Кодекс:
http://maxgubin.com/ir.html == http://maxgubin.com/ir.html

Разное:
1. C. Middleton, R. Baeza-Yates == Baeza-Yates: A Comparison of Open Source Search Engines
http://wrg.upf.edu/WRG/dctos/Middleton-Baeza.pdf == http://wrg.upf.edu/WRG/dctos/Middleton-Baeza.pdf

Конференции:
TREC: http://trec.nist.gov == http://trec.nist.gov
CLEF: http://www.clef-campaign.org/ == http://www.clef-campaign.org/
РОМИП: http://www.romip.ru/ == http://www.romip.ru/

Инструменты:
АОТ – http://www.aot.ru == http://www.aot.ru
Snowball – http://snowball.tartarus.org/ == http://snowball.tartarus.org/
Stemka – http://linguist.nm.ru/stemka/stemka.html == http://linguist.nm.ru/stemka/stemka.html

Крупные деятели:
Hans Peter Luhn
Gerard Salton
Karen Sparck Jones
Stephen Robertson
C.J. van Rijsbergen
Robert M. Hayes
Ricardo Baeza-Yates == Baeza-Yates
Ellen Voorhees