Introdução à Mineração Textual de dados

Este artigo mostra como podemos proceder para descobrir informações úteis em dados não estruturados. Será apresentada a mineração textual de dados e os conceitos envolvidos na execução desta atividade.

Fique por dentro
A mineração de texto permite a descoberta de informação útil a partir de dados não estruturados. Trata-se de uma área da mineração de dados que envolve uma série de desafios. Neste artigo apresentaremos alguns conceitos que fundamentam a área e técnicas que podem ser utilizadas para realizar esta atividade. Ao final, serão apresentados os conceitos utilizados no desenvolvimento de uma ferramenta que apoia a descoberta de informações em dados não estruturados. A discussão deste tema é útil uma vez que mineração textual possui diversas áreas de aplicação como gerenciamento do relacionamento com o cliente, suporte técnico e monitoramento de opinião pública, dentre outras.
Autores: Mário André de Freitas Farias, Methanias Colaço Júnior e Evandro de Barros Costa

A informação é vista como parte sutil do capital e consiste em um dos bens mais valiosos dentro de uma organização. Dispor da informação correta no momento oportuno vem sendo caracterizado como um imprescindível diferencial para gestores de empresas.

A coleta intensiva de dados não estruturados através de atividades diárias como relatórios de sistemas, listas de discussão, questionários eletrônicos, código fonte de sistemas e log de erros provê informações valiosas que podem se revelar como uma fonte promissora para a mineração de dados, em específico a mineração de texto. Contudo, dispor de uma mina de dados não é garantia de um diferencial competitivo. Uma vasta quantidade informacional não assegura uma posição de destaque no ranking das melhores organizações – além de possuir a informação, é necessário dispor de mecanismos que facilitem esse processo de recuperação, objeto de estudo da área conhecida como recuperação da informação.

Uma definição de mineração de dados infere que se trata de uma tecnologia que visa extrair automaticamente conhecimento útil, confiável e não trivial de uma base de dados. De forma análoga à mineração de dados, a mineração de texto procura descobrir conhecimentos úteis em ‘minas’ de dados textuais, ou seja, não estruturadas. Desta forma, apresenta-se como uma forma de garimpar grandes bases em busca da informação necessária para o processo de tomada de decisão.

A mineração de texto vem sendo uma alternativa importante para a descoberta de padrões ocultos em diversas áreas do conhecimento, entre elas a de engenharia de software. Entretanto, minerar dados na forma de linguagem natural não é uma tarefa trivial. Textos são escritos e organizados de forma livre e na maioria das vezes as informações não estão disponíveis em apenas uma fonte de dados. Técnicas refinadas de mineração e recuperação da informação combinadas com métodos estatísticos e um dicionário especializado são comuns na construção de ferramentas de mineração de texto, retratando um verdadeiro processo de mineração.

Embora o termo mineração de texto seja relativamente novo, esta área está ligada diretamente a pesquisas em recuperação da informação - RI. No contexto de RI, as informações podem ser oriundas de textos, imagens, áudio, vídeo e outros objetos multimídia. Nos últimos anos, houve um crescimento em pesquisas relacionadas à recuperação da informação em virtude da disseminação dessas informações digitais.

Recuperação da Informação

O termo recuperação da informação originou-se na década de 60, quando grandes sistemas foram desenvolvidos para mainframes com o objetivo de tratarem coleções de documentos não estruturados. Nos anos 80, esses sistemas ganharam interfaces intermediárias para PC’s com o propósito de viabilizar pesquisas e a recuperação de dados. Eram pesquisas baseadas em palavras chave, ainda hoje utilizadas em alguns motores de busca na web. Em meandros da década de 90, os esforços no desenvolvimento de sistemas de RI foram focados em desempenho, conectividade e em pequenas melhorias na utilização de processamento de linguagem natural.

A utilização de palavras chave em questões simples é suficiente para a recuperação de informação, mas quando se tem questões mais complexas, o uso apenas desse recurso não é condição para se ter respostas satisfatórias. Portanto, a utilização crescente de processamento de linguagem natural (PLN) vem crescendo em ferramentas de recuperação de informação textual. Em sistemas de recuperação de informação que não utilizam PLN, termos interrogativos como ‘quem’, ‘quando’ e ‘o que’ são ignorados e somente " [...] continue lendo...

Artigos relacionados