Mineração de Texto

Nesta página apresento recursos relacionados ao tema  Mineração de Texto. São inicialmente apresentados recursos específicos para suporte as tarefas de categorização de texto e agrupamento de texto. Recursos específicos para outras tarefas de mineração de texto, como indexação automática, sumarização de texto e aprendizado de ontologias, serão abordadas na página do tema processamento de linguagem natural.

Categorização de Texto

Todo programa de mineração de texto dá suporte a tarefa de categorização automática de texto. Basicamente, é a tarefa de atribuir categorias ou rótulos a cada documento a partir do seu conteúdo representado por conjunto de palavras. Um exemplo de categorização de texto, é atribuir aos e-mails as categorias spam e não-spam.

Seguem links para download de bases de dados benchmark de categorização de texto no idioma inglês.

Categorização simples

20 Newsgroups : The 20 Newsgroups data set é uma coleção de aproximadamente vinte mil documentos extraídos de newsgroups. O  UCI KDD archive também mantém esta coleção na página 20newsgroups. Você pode fazer download de uma versão pré-processada para MATLAB que usei em meus artigos: training settest set.

Categorização múltipla

Reuters-21578: Um corpus de notícias disponibilizadas pela Reuters, Ltd. Atualmente é a coleção mais utilizada em pesquisas de categorização de texto. O UCI KDD archive também mantém esta coleção na pagina Reuters21578. Você pode fazer download de uma versão pré-processada para MATLAB que utilizei em meus trabalhos: tranining settest set.

RCV1 (Reuters Corpus Volume 1) : Um corpus de notícias disponibilizadas pela Reuters, Ltd. A coleção pré-processada pode ser obtida na página RCV1-v2.

Ohsumed : Esta coleção contém 348.566 referências extraídas da base de dados científica MEDLINE.

Agrupamento de Texto

Agrupamento de texto consiste na tarefa de formar conjuntos agrupando textos por similaridade de conteúdo, sendo os conteúdos representados como conjunto de palavras. Essa tarefa é empregada por exemplo no suporte à funcionalidade "Conteúdos similares" dos sistemas de recuperação de informação. Aqui, apontamos ferramentas específicas para o agrupamento de texto.

Java SOMToolbox: desenvolvido em Java e voltado para a criação de mapas de documentos utilizando a rede neural artificial SOM. Última atualização em 2018. Mais detalhes na página do Java SOMToolbox.

IRAMUTEQ: desenvolvido em R e voltado para análise multidimensional de textos de publicações científicas e respostas a questionários. Mais detalhes na página do Iramuteq.

VOSviewer: software para gerar visualizações de redes e mapas de co-ocorrência em estudos bibliométricos. Mais detalhes na página do VOSviewer.

Softwares livres de mineração de dados e texto

Weka: Programa Java de código aberto para mineração de dados. Permite a programação visual do fluxo de trabalho (Weka KnowledgeFlow Enviroment) e chamada de código em programas Java. Importa dados de banco de dados. Funcionalidade principais: preprocessamento dos dados, agrupamento, classificação, regressão, visualização de dados e seleção de características. Possui também recursos para preprocessamento de texto, o que permite fazer uso dos algoritmos de aprendizado de máquina comuns na mineração de dados para tarefas de agrupamento, descoberta de associações e classificação de textos. Mais detalhes sobre o programa na página oficial do Weka. Instruções de uso do weka para mineração de textos podem ser obtidas na weka wiki.

Orange: Programa de código aberto e acessível via código python e C++. Permite programação visual do fluxo de dados da tarefa de descoberta de conhecimento. Possui plugins para bioinformática e mineração de texto. Mais detalhes no site ORANGE.

RapidMiner: Programa de código aberto e com plugins para pré-processamento de texto e consulta ao WordNet. Permite programação visual do fluxo de dados da tarefa de descoberta de conhecimento. Funcionalidades principais: preprocessamento de dados, visualização de dados, análise de predição e modelagem estatística, avaliação, e deployment. Mais detalhes na página do RapidMiner.

KNIME: Plataforma gratuita implementada em Java para mineração de dados e texto baseado na arquitetura de plugins da IDE Eclipse. Permite a criação e execução visual de fluxo de dados (workflows) como diagramas. Os componentes visuais são categorizados pela finalidade: acesso a dados; transformação de dados; análise e mineração de dados; visualização de dados; relatórios e exportação de dados .Mais detalhes na página do KNIME.

U-Compare: é um sistema integrado para processamento de linguagem natural e mineração de texto baseado no UIMA Framework. Permite programação visual do fluxo de dados. Mais detalhes veja na página do U-Compare. Última atualização em 2011.

Softwares livres para mineração de dados:

ELKI: escrito em linguagem Java é um software de mineração de dados especializado em análise de agrupamentos e detecção de outliers

PSPP: software da GNU, alternativo ao comercial SPSS, voltado para análise estatística dos dados.

DataMelt: ambiente para computação científica e mineração de dados.

Rattle: Interface Gráfica para mineração de dados no programa R.

KEEL: Software espanhol, permite a programação visual do fluxo de dados.

ALPHA MINER: oferece uma interface baseada em fluxo de dados (última atualização em 2015).

TANAGRA: sucessor de SIPINA com foco em agrupamento (Última atualização em 2013)

SIPINA: focado em árvores de decisão (Última atualização em 2006)

Repositórios de recursos

KDnuggets:  descreve  Notícias, Software, Soluções, Empresas, Empregos, Cursos, Eventos e Publicações sobre Data Mining, Web Mining, Knowledge Discovery, e Decision Support. 

META-SHARE: repositório de recursos linguísticos para diversos idiomas e diferentes tarefas de processamento de linguagem natural. Contém softwares, dicionários, corpus etc.


Nenhum comentário: