Em seguida,
são apresentadas as tarefas da mineração (classificação, estimativa ou
regressão, associação, clusterização) e as técnicas existentes (regras de
associação, regras de classificação, árvores de decisão, agrupamento).
A mineração de dados, com suas tarefas e técnicas, representa a fase principal do KDD, sigla em inglês para Knowledge Discovery in Databases, ou Descoberta de Conhecimento em Bases de Dados.
O KDD concentra os conceitos e processos para a utilização de bases de dados em processos de tomada de decisão transformando, através de processamentos sucessivos, dados brutos em informações relevantes e conhecimento útil.
Este artigo apresenta as definições do KDD, concentrando-se nas fases de pré-processamento e mineração de dados, com suas principais tarefas e técnicas.
O KDD é formado por uma sequência de etapas que, uma vez executadas, resultará na geração do conhecimento útil. Este processo é composto, conforme apresentado na Figura 1, pelas seguintes atividades: seleção dos dados utilizados; sua preparação para a utilização através de um tratamento prévio (pré-processamento); sua subsequente transformação para um formato adequado; o processamento do conjunto de dados por algoritmos especialistas (mineração de dados) e, finalmente, a análise dos resultados obtidos para a sua aplicação no processo decisório (interpretação/avaliação).
Figura 1. As fases do KDD
A etapa de seleção diz respeito à análise da disponibilidade e relevância dos dados existentes nas suas diversas fontes. Uma escolha errada dos dados pode levar à geração de informações errôneas, prejudicando a tomada de decisão.
Uma vez identificado e extraído o conjunto de dados relevantes, faz-se necessário prepará-los para a aplicação das técnicas de mineração. Esse tratamento consiste em seu processamento, sob diferentes aspectos, tornando-os qualificados para a mineração.
Preliminarmente, devem ser estabelecidas normas de representação dos dados utilizados, que geralmente são provenientes de origens distintas, com diferentes formatos de armazenamento, determinando a sua padronização na base a ser gerada.
A definição das normas de representação de uma base para mineração sofre influência direta da técnica de mineração desejada e, em alguns casos, da ferramenta de mineração utilizada. Após a definição das normas de representação, os dados identificados devem ser extraídos de suas fontes e integrados em um único repositório.
A fase de pré-processamento é constituída por diversas atividades de tratamento dos dados selecionados, tais como verificação semântica, enriquecimento, deduplicação, unificação e discretização, detalhadas a seguir.
A verificação dos dados armazenados quanto à sua consistência semântica determinará se, ao integrá-los de fontes diferentes, foi produzida alguma inconsistência. Problemas com compatibilidade dos elementos formadores de endereços - CEP, bairro, cidade, Estado, país, são exemplos comuns de inconsistências identificadas nesse processo.
O enriquecimento dos dados consiste no preenchimento ...