Recuperação de Informação

Recuperação de informação é a atividade de realizar buscas visando encontrar documentos relevantes para uma necessidade de informação. As pesquisas nesse tema envolvem a construção de buscadores, mecanismos de busca, motores de busca, serviços de busca ou sistemas de recuperação de informação.

Nesta página são apresentadas informações sobre servidores de busca, motores ou mecanismos de busca, pesquisadores e livros da área e links relacionados.

Servidores de busca

ElasticSearch é um servidor de busca de texto completo de código aberto baseado em Lucene. Indexa automaticamente o conteúdo de arquivos HTML, XML, OpenOffice (Writer, Calc, Impress), Microsoft Word, PDF, texto e outros formatos de dados. O servidor recebe comandos via uma REST API e usa o formato de dados JSON.

Solr é um servidor de busca de texto completo de código aberto baseado em Lucene. Possui interface web de administração, APIs HTTP e dados nos formatos XML/JSON. Destaca casamentos (hit highlighting) e permite busca facetada (faceted search). Permite extensões por meio de plugins escritos em Java. Ele executa em um servidor web com um Java servlet container como Tomcat. Documentos são adicionados a uma coleção de busca via via XML sobre HTTP. A coleção é consultada via HTTP e a resposta é retornada em um arquivo XML ou em formato texto JSON.

Mecanismos de busca de Código Aberto

Zettair: um mecanismo de busca de código aberto escrito em C. Processa documentos texto e html. Customizado para processamento de coleções benchmark TREC. Rápido na indexação e na busca de grandes coleções de documentos.  Permite a construção incremental do índice. Apresenta bons índices de precisão e revocação. Ultima atualização do código foi realizada em 2009.

Indri: um mecanismo de busca de código aberto escrito em C++ desenvolvido a partir do  lemur toolkit. Processa documentos texto, html, pdf e xml. Tem performance semelhante ao Zettair, embora 3 vezes mais lento na indexação e índices de precisão e revocação ligeiramente piores. Permite a construção incremental do índice. A ultima atualização do código foi em 2013.

Terrier: um mecanismo de busca de código aberto escrito em Java. Processa documentos texto, html, pdf e xml. Customizado para processamento de coleções benchmark TREC. Cerca de 10 vezes mais lento na indexação que o Zettair. Apresenta indicies de precisão e revocação inferiores ao Zettair mas próximos ao Indri. Não permite a construção incremental do índice. Ultima atualização do código foi realizada em 2014.

MG4J: um mecanismo de busca de código aberto escrito em Java. Processa documentos texto e html. Cerca de três vezes mais lento na indexação  que o Zettair. Apresenta piores índices de precisão e revocação que Zettair, Indri e Terrier. Permite a construção incremental do índice. A ultima atualização do código foi em 2013.

Lucene: uma biblioteca java que permite a construção de mecanismos de busca de código aberto escritos em Java. Utilizada em sites como Wikipedia, LinkedIn e softwares como Solr e Dspace. Processa documentos texto.  Cerca de 15 vezes mais lento na indexação que o Zettair. Permite a construção incremental do índice. Ultima atualização do código foi realizada em 2014.

Pesquisadores

Berthier Ribeiro Neto: Autor de vários artigos no tema e do livro "Modern Information Retrieval". Seus interesses de pesquisa envolvem sistema de recuperação de informação para web e bibliotecas digitais.

Ricardo Baeza-Yates: Autor de vários artigos no tema e do livro "Modern Information Retrieval". Seus temas de pesquisa incluem recuperação de informação, web mining, banco de dados textuais e multimídia, visualização e interface com usuário.

Nivio Ziviani: Autor de vários artigos no tema. Seus interesses de pesquisa incluem recuperação de informação, indexação de texto, busca em texto e sistemas de informação na web.

Livros

BAEZA-YATES, R.; RIBEIRO-NETO, B. Recuperação de informação: conceitos e tecnologia das máquinas de busca. 2. ed. Porto Alegre: Bookman, 2013.

Ricardo Baeza-Yates & Berthier Ribeiro-Neto. Modern Information Retrieval - The Concepts and Technology behind Search. 2nd Edition, Pearson, 2011.

Trevor Strohman, Donald Metzler, W. Bruce Croft. Search Engines: Information Retrieval in Practice. Pearson, 2010.

Manning, P. Raghavan and H. Schuetze. Introduction to Information Retrieval. Cambridge University Press, 2008.


Nenhum comentário: