Mineração e Análise de Dados em SQL

Natal DevMedia: Assine hoje e ganhe 3 meses gr�tis

As empresas que usam recursos de TI, como infraestruturas de Base de Dados, cont�m uma grande quantidade de dados armazenados que s�o utilizados para administra��o e servi�os. Todavia desta grande quantidade de dados podem ser extra�das informa��es valiosas que auxiliem na organiza��o da empresa e nas estrat�gias de neg�cio. Isto n�o se limita as empresas de neg�cio, mas abre um leque para outras institui��es como centros de pesquisa e organiza��es p�blicas que concentram grande quantidade de dados decorrente de seus servi�os. Dados estes que sendo analisados geraria informa��es que ajudassem o cotidiano destas institui��es; melhorando a oferta de seus servi�os. Diante desta perspectiva surge o processo de Descoberta de Conhecimento em Base de Dados (conhecido como Knowledge Discovery in Database - KDD) cujo interesse �, a partir de Base de Dados, extrair conhecimento. Atrav�s deste conhecimento extra�do � poss�vel tomar decis�es de acordo com o resultado obtido. Este processo � composto de v�rias etapas; entre elas, a mais importante � a etapa de Minera��o e An�lise de Dados (conhecido como Data Mining - DM) que visa reconhecer padr�es de dados e atrav�s de t�cnicas empregadas em seu processo, de acordo com regras de neg�cio, gerar conhecimento que posteriormente ser� analisado.

Descoberta de Conhecimento em base de dados

Esta metodologia foi introduzida em meados da d�cada de 80, com o objetivo de encontrar conhecimento em imensas bases de dados. Segundo Fayyad et al. [1996] o KDD consiste em um processo n�o trivial de identifica��o de padr�es v�lidos, desconhecidos, potencialmente �teis e compreens�veis. A metodologia de KDD � composta pelas seguintes etapas [Fayyad et al. 1996]:

Sele��o: cria��o do conjunto de dados para processamento, conhecido como Data Warehouse;
Processamento: uso de t�cnicas para remo��o de ru�do, defini��o de estrat�gias para valores faltosos e formata��o dos dados;
Transforma��o: localiza��o de caracter�sticas �teis para sele��o dos dados;
DM: s�o definidos os tipos de tarefas e t�cnicas utilizadas para extra��o de padr�es;
Interpreta��o e an�lise: s�o feitas visualiza��es dos padr�es que passam por interpreta��o subjetiva para abstra��o das informa��es obtidas com o prop�sito de analisar utilidade, entendimento e complexidade dos padr�es.

Ao final teremos a realiza��o do processo de KDD; a figura 1 ilustra o processo de KDD; como pode ser observado, o processo KDD � flex�vel sendo poss�vel voltar para alguma das fases anteriores quando necess�rio para um melhor refinamento dos dados para descoberta de conhecimento mais consistente; sendo necess�ria a presen�a humana para direcionar quais tipos de dados ser�o manipulados. Isto descreve o que Fayyad et al. (1996) afirmaram como o processo de KDD ser interativo e iterativo. Interativo por necessitar de apoio humano para manipula��o e especifica��o dos dados que fazem parte do processo KDD e iterativo pela flexibilidade de voltar qualquer etapa executada previamente.

**Figura 1**. Processo de KDD [Fayyad et al. 1996]

Minera��o e An�lise de Dados

Segundo Fayyad et al. (1996) a Minera��o de Dados consiste na aplica��o de algoritmos para an�lise e descoberta de conhecimento e na produ��o de padr�es ou modelos a partir de grandes Base de Dados. Esta etapa � estruturada em tr�s sub etapas [Batista, 2003]:

Escolha da tarefa: pode ser feita uma combina��o de tarefas para uma melhor extra��o de padr�es. Entre as tarefas est�o: descri��o, classifica��o, estima��o ou regress�o, predi��o, agrupamento e associa��o [Camilo & Silva 2009];
Escolha da T�cnica: de acordo com a tarefa ou conjunto de tarefas selecionadas � escolhida a t�cnica que ser� utilizada.
Aplica��o do DM.

Muitas das empresas atualmente est�o utilizando a t�cnica de DM pelo fato de j� existir diversas ferramentas dispon�veis no mercado que auxiliam no processo e que s�o est�veis; � o caso da Oracle Data Miner. Al�m disso, as diversas ferramentas contam com diversos recursos por parte de tarefas e t�cnicas utilizadas. Witten et al. (2005), Olson et al. (2008) e Bramer (2007) apresentam algumas das �reas nas quais a Minera��o de Dados � aplicada de forma satisfat�ria:

Bancos: auxiliar no gerenciamento de relacionamento com o cliente;
Cart�o de Cr�dito: identificar segmentos de mercado e rotatividade;
Cobran�a: detec��o de fraudes;
Eleitoral: identifica��o de um perfil para poss�veis votantes;
Medicina: indica��es de diagn�sticos mais precisos;
Tomada de decis�o: filtro de informa��es relevantes fornecendo indicadores de probabilidade.

Segundo Berry & linoff (1997) e Fayyad et al. (1996) a etapa de Minera��o de Dados pode ser abordada na forma Top-Down e Bottom-Up. Assim como a flexibilidade do processo KDD, tamb�m a etapa de DM, pois pode ser utilizado as ambas abordagens para uma melhor extra��o dos dados.

Na abordagem Top-Down ou preditiva � feita uma an�lise do comportamento da Base de Dados com o passar dos tempos para verificar ou refutar no��es, ideias ou relacionamentos pr�-concebidos entre os dados, ou seja, teste de hip�teses.

Na abordagem Bottom-Up ou descritiva n�o faz preconcep��o dos dados, onde os dados s�o analisados e deles � retirado conhecimento. Sendo um processo feito de duas maneiras distintas:

Aprendizado supervisionado: tenta explicar ou categorizar dados em particular;
Aprendizado n�o supervisionado: tenta encontrar padr�es ou similaridades entre grupos de registros sem o uso de um campo em particular como alvo ou de conjuntos de classes pr�-definidos.

Tarefas do DM

As tarefas do DM s�o classificadas de acordo com a abordagem que se deseja seguir. Dependendo da abordagem e regra de neg�cio estabelecida nem todas as tarefas s�o obrigat�rias, e em muitos casos muitas tarefas podem ser agrupadas constituindo uma tarefa s�. A seguir ser�o mostradas todas as tarefas mencionadas de acordo com suas abordagens tendo em vistas que tarefas presentes nas duas abordagens ser�o mencionadas somente uma �nica vez.

Tarefas de Abordagem Top-Down

Dentro da abordagem Top-Down encontramos a Estima��o, Predi��o e Classifica��o [Thuraisingham 1999]. A Estima��o � o processo de predizer algum valor baseado num padr�o j� conhecido. Assim, pode-se estimar o valor de uma determinada vari�vel analisando-se os valores das demais. A Predi��o � o processo de predizer um comportamento futuro baseado em v�rios valores. Semelhante �s tarefas de estima��o e classifica��o [Camilo & Silva 2009].

A Classifica��o � o processo de predizer algum valor para uma vari�vel categ�rica. Nesta tarefa, o modelo analisa o conjunto de registros fornecidos, com cada registro j� contendo a indica��o � qual classe pertence, a fim de �aprender� como classificar um novo registro [Camilo & Silva 2009]. Os dados podem ser associados � classe pelo processo de discrimina��o, onde o resultado obtido prov�m de um valor atribu�do a um registro em fun��o de um ou mais atributos do mesmo, ou por caracteriza��o, pela sumariza��o de um atributo de estudo por uma caracter�stica de um ou mais atributos [Cort�s et al. 2002].

Tarefas de Abordagem Bottom-Up

Na abordagem Bottom-Up as tarefas s�o classificadas em aprendizado supervisionado e aprendizado n�o supervisionado. Na classifica��o em aprendizado supervisionado temos [Cort�s et al. 2002]:

An�lise de outliers: utilizado para an�lise de dados que n�o apresentam comportamento geral da maioria; estes tipos de dados s�o conhecidos como outliers. Uma vez encontrados podem ser descartados para utiliza��o no processo DM. Por exemplo, an�lise de vendas em determinada regi�o;
An�lise de desvios: Esta t�cnica serve para detectar mudan�a no comportamento de dados comparando com a��es padr�es. Podem ser utilizados para analisar eventos irregulares, por exemplo, fraude de cart�es de cr�dito;
Visualiza��o: t�cnica utilizada quando n�o conhece a distribui��o dos dados para encontrar algum tipo de disparidade. Por exemplo, histograma de chamadas telef�nicas.

Na classifica��o em aprendizado n�o supervisionado temos [Cort�s et al. 2002]:

Associa��o - esta tarefa consiste em identificar quais atributos est�o relacionados; � uma das tarefas mais conhecidas. Por exemplo, cestas de compras em que produtos s�o levados juntos pelos consumidores.
Agrupamento ou Clustering - tem o objetivo de identificar e aproximar os registros similares. Consiste de uma cole��o de registros similares entre si, por�m diferentes de outros tipos de registros em demais agrupamentos.
Descri��o - descrever tend�ncias e padr�es revelados pelos dados. Oferece poss�vel interpreta��o dos resultados, sendo utilizada para clarear ideias utilizadas, hip�teses ou fatos observados no banco de dados;
Detec��o de sequ�ncias - utiliza��o de algum tipo de padr�o nos dados para determinar que tipos de sequ�ncias possam ser determinados. Por exemplo, um cliente compra um determinado produto e meses depois compra um produto associado ao primeiro;
Segmenta��o - conjunto de dados subdivididos em conjunto menores com comportamentos similares nos atributos de segmenta��o. Por exemplo, segmenta��o de registros de bilhetes a�reos de uma companhia de avi�o;
Otimiza��o - visa otimizar recursos limitados como tempo, espa�o, dinheiro, mat�ria-prima, dentre outros, buscando maximizar resultados com venda, lucros, distribui��o, economia de espa�o e etc. Por exemplo, estudo das vendas de um supermercado;
Identifica��o - utilizar padr�es de dados para identificar a exist�ncia de um item, um evento ou uma atividade. Por exemplo, aplica��es biol�gicas para autentica��o de usu�rio espec�fico ou de classe autorizada;
An�lise de evolu��o - descreve e estuda a regularidade de modelos ou tend�ncias para objetos cujo comportamento muda ao longo do tempo. Por exemplo, amplia��o de estoque;
An�lise em dados no formato texto - trabalhar dados em formato texto visando transformar em formato de uso e extrair seus resultados baseados em t�cnicas de tratamento e explora��o de textos. Por exemplo, explora��o de dados criminais para similaridade entre crimes.

T�cnicas do DM

De acordo com a tarefa ou conjunto de tarefas escolhida existem t�cnicas utilizadas para alcan�ar o que foi proposto. Neste trabalho as t�cnicas est�o organizadas de acordo com a tarefa a qual � aplicada. As tabelas 1 e 2 a seguir, mostram as principais t�cnicas utilizadas para aplica��o da tarefa. � poss�vel perceber, pelas tabelas 1 e 2, que existem tarefas que utilizam as mesmas t�cnicas. Logo, o motivo de muitas tarefas serem aglutinadas pelo uso da mesma t�cnica.

Tarefa	T�cnica
Estima��o	Regress�o linear, M�ltipla, n�o linear, Log�stica, Poisson.
Predi��o	Regress�o linear, M�ltipla, n�o linear, Log�stica, Poisson.
Classifica��o	�rvore de Decis�o, Classifica��o Baeysiana, Rede Neural, Classifica��o por Regras, An�lise de Vizinhan�a, Algoritmos Gen�ticos, L�gica Fuzzy.

Tabela 1. Algumas t�cnicas utilizadas na abordagem Top-Down baseado em [Cort�s et al. 2002]

Tarefa	T�cnica
An�lise de outliers	Ferramentas de consulta e t�cnicas de estat�stica, �rvore de Decis�o.
An�lise de desvios	Ferramentas de consulta e t�cnicas de estat�stica, �rvore de Decis�o.
Visualiza��o	Agrega��o e gr�ficos diversos.
Classifica��o	�rvore de Decis�o.
Associa��o	An�lise de Correla��o, Minera��o baseada em Restri��o.
Agrupamento	M�todos de particionamento, hier�rquicos, baseados em modelos, abordagem estat�stica e Redes Neurais.
Descri��o	Sumariza��o e Generaliza��o dos dados baseados em caracteriza��o, Caracteriza��o Anal�tica.
Segmenta��o	�rvore de Decis�o.
Sumariza��o e Visualiza��o	Agrega��es e Gr�ficos diversos.
An�lise de dados em formato texto	An�lise de dados textual e recupera��o de informa��es, Minera��o de textos.

Tabela 2. Algumas t�cnicas na abordagem Bottom-Up baseado em [Cort�s et al. 2002]

Ferramentas para DM

Existem dispon�veis no mercado, diversas ferramentas que d�o suporte a etapa de DM. Algumas dessas ferramentas s�o dispon�veis gratuitamente. A tabela 3 mostra algumas das principais ferramentas dispon�veis para DM, onde � poss�vel notar que estas ferramentas implementam diversas t�cnicas da DM.

Ferramenta	Fornecedor	Tarefas
WEKA	University of Waikato	Classifica��o, Regress�o e Regras de Associa��o.
Intelligent Miner	IBM Corp.	Classifica��o, Regras de Associa��o, Clusteriza��o e Sumariza��o.
Oracle Data Miner	Oracle	Classifica��o, Regress�o, Associa��o, Clusteriza��o e Minera��o de Textos.
SAS Enterprise Miner Suite	SAS Inc.	Classifica��o, Regras de Associa��o, Regress�o e Sumariza��o.
Clementine	SPSS Inc.	Classifica��o, Regras de Associa��o, Clusteriza��o, Sequ�ncia e Detec��o de Desvios.
Darwin	Thinking Machines	Classifica��o.
Business Objects	Business Objects	Classifica��o, Regras de Associa��o, Clusteriza��o e Sumariza��o.
Microsoft Data Analyser	Microsoft Corp.	Classifica��o e Clusteriza��o.
MineSet	Silicon Graphics Inc.	Classifica��o, Regras de Associa��o, An�lise Estat�stica.
DBMiner	DBMiner Technology Inc.	Classifica��o, Regras de Associa��o e Clusteriza��o.
Gemanics Expression	Gemanics Developer	An�lise de Sequ�ncias.
SAS Text Miner	SAS Inc.	Minera��o de Textos.

Tabela 3. Ferramentas DM baseado em [Rezende 2003][Amo][Camilo & Silva 2009]

Atrav�s de levantamento liter�rio � poss�vel concluir que a Minera��o de Dados est� sendo bem vista pelas empresas. Uma prova disto s�o os investimentos em Intelig�ncia de Neg�cios. Outro ponto interessante � que existe muita literatura e ferramentas dispon�veis apar aplica��o desta t�cnica.

Contudo a maioria das literaturas abordam tarefas, t�cnicas e perspectivas com nomenclaturas diferentes o que � preciso uma an�lise dessas nomenclaturas para verificar quais termos est�o sendo utilizados atualmente e quais termos descrevem um assunto comum. Tamb�m � preciso analisar a aquisi��o de conhecimento para uso das t�cnicas, ferramentas, licen�as. Por fim, � poss�vel perceber que apesar de suas limita��es grandes progressos foram feitos e est�o sendo realizados para o avan�o da Minera��o de Dados e pelo processo de Descoberta de Conhecimento em Base de Dados.