Mineração e Análise de Dados em SQL

As empresas que usam recursos de TI, como infraestruturas de Base de Dados, contêm uma grande quantidade de dados armazenados que são utilizados para administração e serviços. Todavia desta grande quantidade de dados podem ser extraídas informações valiosas que auxiliem na organização da empresa e nas estratégias de negócio. Isto não se limita as empresas de negócio, mas abre um leque para outras instituições como centros de pesquisa e organizações públicas que concentram grande quantidade de dados decorrente de seus serviços. Dados estes que sendo analisados geraria informações que ajudassem o cotidiano destas instituições; melhorando a oferta de seus serviços. Diante desta perspectiva surge o processo de Descoberta de Conhecimento em Base de Dados (conhecido como Knowledge Discovery in Database - KDD) cujo interesse é, a partir de Base de Dados, extrair conhecimento. Através deste conhecimento extraído é possível tomar decisões de acordo com o resultado obtido. Este processo é composto de várias etapas; entre elas, a mais importante é a etapa de Mineração e Análise de Dados (conhecido como Data Mining - DM) que visa reconhecer padrões de dados e através de técnicas empregadas em seu processo, de acordo com regras de negócio, gerar conhecimento que posteriormente será analisado.

Descoberta de Conhecimento em base de dados

Esta metodologia foi introduzida em meados da década de 80, com o objetivo de encontrar conhecimento em imensas bases de dados. Segundo Fayyad et al. [1996] o KDD consiste em um processo não trivial de identificação de padrões válidos, desconhecidos, potencialmente úteis e compreensíveis. A metodologia de KDD é composta pelas seguintes etapas [Fayyad et al. 1996]:

Seleção: criação do conjunto de dados para processamento, conhecido como Data Warehouse;
Processamento: uso de técnicas para remoção de ruído, definição de estratégias para valores faltosos e formatação dos dados;
Transformação: localização de características úteis para seleção dos dados;
DM: são definidos os tipos de tarefas e técnicas utilizadas para extração de padrões;
Interpretação e análise: são feitas visualizações dos padrões que passam por interpretação subjetiva para abstração das informações obtidas com o propósito de analisar utilidade, entendimento e complexidade dos padrões.

Ao final teremos a realização do processo de KDD; a figura 1 ilustra o processo de KDD; como pode ser observado, o processo KDD é flexível sendo possível voltar para alguma das fases anteriores quando necessário para um melhor refinamento dos dados para descoberta de conhecimento mais consistente; sendo necessária a presença humana para direcionar quais tipos de dados serão manipulados. Isto descreve o que Fayyad et al. (1996) afirmaram como o processo de KDD ser interativo e iterativo. Interativo por necessitar de apoio humano para manipulação e especificação dos dados que fazem parte do processo KDD e iterativo pela flexibilidade de voltar qualquer etapa executada previamente.

Figura 1. Processo de KDD [Fayyad et al. 1996]

Mineração e Análise de Dados

Segundo Fayyad et al. (1996) a Mineração de Dados consiste na aplicação de algoritmos para análise e descoberta de conhecimento e na produção de padrões ou modelos a partir de grandes Base de Dados. Esta etapa é estruturada em três sub etapas [Batista, 2003]:

Escolha da tarefa: pode ser feita uma combinação de tarefas para uma melhor extração de padrões. Entre as tarefas estão: descrição, classificação, estimação ou regressão, predição, agrupamento e associação [Camilo & Silva 2009];
Escolha da Técnica: de acordo com a tarefa ou conjunto de tarefas selecionadas é escolhida a técnica que será utilizada.
Aplicação do DM.

Muitas das empresas atualmente estão utilizando a técnica de DM pelo fato de já existir diversas ferramentas disponíveis no mercado que auxiliam no processo e que são estáveis; é o caso da Oracle Data Miner. Além disso, as diversas ferramentas contam com diversos recursos por parte de tarefas e técnicas utilizadas. Witten et al. (2005), Olson et al. (2008) e Bramer (2007) apresentam algumas das áreas nas quais a Mineração de Dados é aplicada de forma satisfatória:

Bancos: auxiliar no gerenciamento de relacionamento com o cliente;
Cartão de Crédito: identificar segmentos de mercado e rotatividade;
Cobrança: detecção de fraudes;
Eleitoral: identificação de um perfil para possíveis votantes;
Medicina: indicações de diagnósticos mais precisos;
Tomada de decisão: filtro de informações relevantes fornecendo indicadores de probabilidade.

Figura 2. Procedimento da etapa DM.

Segundo Berry & linoff (1997) e Fayyad et al. (1996) a etapa de Mineração de Dados pode ser abordada na forma Top-Down e Bottom-Up. Assim como a flexibilidade do processo KDD, também a etapa de DM, pois pode ser utilizado as ambas abordagens para uma melhor extração dos dados.

Na abordagem Top-Down ou preditiva é feita uma análise do comportamento da Base de Dados com o passar dos tempos para verificar ou refutar noções, ideias ou relacionamentos pré-concebidos entre os dados, ou seja, teste de hipóteses.

Na abordagem Bottom-Up ou descritiva não faz preconcepção dos dados, onde os dados são analisados e deles é retirado conhecimento. Sendo um processo feito de duas maneiras distintas:

Aprendizado supervisionado: tenta explicar ou categorizar dados em particular;
Aprendizado não supervisionado: tenta encontrar padrões ou similaridades entre grupos de registros sem o uso de um campo em particular como alvo ou de conjuntos de classes pré-definidos.

Tarefas do DM

As tarefas do DM são classificadas de acordo com a abordagem que se deseja seguir. Dependendo da abordagem e regra de negócio estabelecida nem todas as tarefas são obrigatórias, e em muitos casos muitas tarefas podem ser agrupadas constituindo uma tarefa só. A seguir serão mostradas todas as tarefas mencionadas de acordo com suas abordagens tendo em vistas que tarefas presentes nas duas abordagens serão mencionadas somente uma única vez.

Tarefas de Abordagem Top-Down

Dentro da abordagem Top-Down encontramos a Estimação, Predição e Classificação [Thuraisingham 1999]. A Estimação é o processo de predizer algum valor baseado num padrão já conhecido. Assim, pode-se estimar o valor de uma determinada variável analisando-se os valores das demais. A Predição é o processo de predizer um comportamento futuro baseado em vários valores. Semelhante às tarefas de estimação e classificação [Camilo & Silva 2009].

A Classificação é o processo de predizer algum valor para uma variável categórica. Nesta tarefa, o modelo analisa o conjunto de registros fornecidos, com cada registro já contendo a indicação à qual classe pertence, a fim de ’aprender’ como classificar um novo registro [Camilo & Silva 2009]. Os dados podem ser associados à classe pelo processo de discriminação, onde o resultado obtido provém de um valor atribuído a um registro em função de um ou mais atributos do mesmo, ou por caracterização, pela sumarização de um atributo de estudo por uma característica de um ou mais atributos [Cortês et al. 2002].

Tarefas de Abordagem Bottom-Up

Na abordagem Bottom-Up as tarefas são classificadas em aprendizado supervisionado e aprendizado não supervisionado. Na classificação em aprendizado supervisionado temos [Cortês et al. 2002]:

Análise de outliers: utilizado para análise de dados que não apresentam comportamento geral da maioria; estes tipos de dados são conhecidos como outliers. Uma vez encontrados podem ser descartados para utilização no processo DM. Por exemplo, análise de vendas em determinada região;
Análise de desvios: Esta técnica serve para detectar mudança no comportamento de dados comparando com ações padrões. Podem ser utilizados para analisar eventos irregulares, por exemplo, fraude de cartões de crédito;
Visualização: técnica utilizada quando não conhece a distribuição dos dados para encontrar algum tipo de disparidade. Por exemplo, histograma de chamadas telefônicas.

Na classificação em aprendizado não supervisionado temos [Cortês et al. 2002]:

Associação - esta tarefa consiste em identificar quais atributos estão relacionados; é uma das tarefas mais conhecidas. Por exemplo, cestas de compras em que produtos são levados juntos pelos consumidores.
Agrupamento ou Clustering - tem o objetivo de identificar e aproximar os registros similares. Consiste de uma coleção de registros similares entre si, porém diferentes de outros tipos de registros em demais agrupamentos.
Descrição - descrever tendências e padrões revelados pelos dados. Oferece possível interpretação dos resultados, sendo utilizada para clarear ideias utilizadas, hipóteses ou fatos observados no banco de dados;
Detecção de sequências - utilização de algum tipo de padrão nos dados para determinar que tipos de sequências possam ser determinados. Por exemplo, um cliente compra um determinado produto e meses depois compra um produto associado ao primeiro;
Segmentação - conjunto de dados subdivididos em conjunto menores com comportamentos similares nos atributos de segmentação. Por exemplo, segmentação de registros de bilhetes aéreos de uma companhia de avião;
Otimização - visa otimizar recursos limitados como tempo, espaço, dinheiro, matéria-prima, dentre outros, buscando maximizar resultados com venda, lucros, distribuição, economia de espaço e etc. Por exemplo, estudo das vendas de um supermercado;
Identificação - utilizar padrões de dados para identificar a existência de um item, um evento ou uma atividade. Por exemplo, aplicações biológicas para autenticação de usuário específico ou de classe autorizada;
Análise de evolução - descreve e estuda a regularidade de modelos ou tendências para objetos cujo comportamento muda ao longo do tempo. Por exemplo, ampliação de estoque;
Análise em dados no formato texto - trabalhar dados em formato texto visando transformar em formato de uso e extrair seus resultados baseados em técnicas de tratamento e exploração de textos. Por exemplo, exploração de dados criminais para similaridade entre crimes.

Técnicas do DM

De acordo com a tarefa ou conjunto de tarefas escolhida existem técnicas utilizadas para alcançar o que foi proposto. Neste trabalho as técnicas estão organizadas de acordo com a tarefa a qual é aplicada. As tabelas 1 e 2 a seguir, mostram as principais técnicas utilizadas para aplicação da tarefa. É possível perceber, pelas tabelas 1 e 2, que existem tarefas que utilizam as mesmas técnicas. Logo, o motivo de muitas tarefas serem aglutinadas pelo uso da mesma técnica.

Tarefa	Técnica
Estimação	Regressão linear, Múltipla, não linear, Logística, Poisson.
Predição	Regressão linear, Múltipla, não linear, Logística, Poisson.
Classificação	Árvore de Decisão, Classificação Baeysiana, Rede Neural, Classificação por Regras, Análise de Vizinhança, Algoritmos Genéticos, Lógica Fuzzy.

Tabela 1. Algumas técnicas utilizadas na abordagem Top-Down baseado em [Cortês et al. 2002]

Tarefa	Técnica
Análise de outliers	Ferramentas de consulta e técnicas de estatística, Árvore de Decisão.
Análise de desvios	Ferramentas de consulta e técnicas de estatística, Árvore de Decisão.
Visualização	Agregação e gráficos diversos.
Classificação	Árvore de Decisão.
Associação	Análise de Correlação, Mineração baseada em Restrição.
Agrupamento	Métodos de particionamento, hierárquicos, baseados em modelos, abordagem estatística e Redes Neurais.
Descrição	Sumarização e Generalização dos dados baseados em caracterização, Caracterização Analítica.
Segmentação	Árvore de Decisão.
Sumarização e Visualização	Agregações e Gráficos diversos.
Análise de dados em formato texto	Análise de dados textual e recuperação de informações, Mineração de textos.

Tabela 2. Algumas técnicas na abordagem Bottom-Up baseado em [Cortês et al. 2002]

Ferramentas para DM

Existem disponíveis no mercado, diversas ferramentas que dão suporte a etapa de DM. Algumas dessas ferramentas são disponíveis gratuitamente. A tabela 3 mostra algumas das principais ferramentas disponíveis para DM, onde é possível notar que estas ferramentas implementam diversas técnicas da DM.

Ferramenta	Fornecedor	Tarefas
WEKA	University of Waikato	Classificação, Regressão e Regras de Associação.
Intelligent Miner	IBM Corp.	Classificação, Regras de Associação, Clusterização e Sumarização.
Oracle Data Miner	Oracle	Classificação, Regressão, Associação, Clusterização e Mineração de Textos.
SAS Enterprise Miner Suite	SAS Inc.	Classificação, Regras de Associação, Regressão e Sumarização.
Clementine	SPSS Inc.	Classificação, Regras de Associação, Clusterização, Sequência e Detecção de Desvios.
Darwin	Thinking Machines	Classificação.
Business Objects	Business Objects	Classificação, Regras de Associação, Clusterização e Sumarização.
Microsoft Data Analyser	Microsoft Corp.	Classificação e Clusterização.
MineSet	Silicon Graphics Inc.	Classificação, Regras de Associação, Análise Estatística.
DBMiner	DBMiner Technology Inc.	Classificação, Regras de Associação e Clusterização.
Gemanics Expression	Gemanics Developer	Análise de Sequências.
SAS Text Miner	SAS Inc.	Mineração de Textos.

Tabela 3. Ferramentas DM baseado em [Rezende 2003][Amo][Camilo & Silva 2009]

Através de levantamento literário é possível concluir que a Mineração de Dados está sendo bem vista pelas empresas. Uma prova disto são os investimentos em Inteligência de Negócios. Outro ponto interessante é que existe muita literatura e ferramentas disponíveis apar aplicação desta técnica.

Contudo a maioria das literaturas abordam tarefas, técnicas e perspectivas com nomenclaturas diferentes o que é preciso uma análise dessas nomenclaturas para verificar quais termos estão sendo utilizados atualmente e quais termos descrevem um assunto comum. Também é preciso analisar a aquisição de conhecimento para uso das técnicas, ferramentas, licenças. Por fim, é possível perceber que apesar de suas limitações grandes progressos foram feitos e estão sendo realizados para o avanço da Mineração de Dados e pelo processo de Descoberta de Conhecimento em Base de Dados.