Mineração e Análise de Dados em SQL

Veja neste artigo que técnicas estão sendo usadas em grandes bancos de dados para extração de conhecimento da mineração e na análise desses dados em SQL.

As empresas que usam recursos de TI, como infraestruturas de Base de Dados, contêm uma grande quantidade de dados armazenados que são utilizados para administração e serviços. Todavia desta grande quantidade de dados podem ser extraídas informações valiosas que auxiliem na organização da empresa e nas estratégias de negócio. Isto não se limita as empresas de negócio, mas abre um leque para outras instituições como centros de pesquisa e organizações públicas que concentram grande quantidade de dados decorrente de seus serviços. Dados estes que sendo analisados geraria informações que ajudassem o cotidiano destas instituições; melhorando a oferta de seus serviços. Diante desta perspectiva surge o processo de Descoberta de Conhecimento em Base de Dados (conhecido como Knowledge Discovery in Database - KDD) cujo interesse é, a partir de Base de Dados, extrair conhecimento. Através deste conhecimento extraído é possível tomar decisões de acordo com o resultado obtido. Este processo é composto de várias etapas; entre elas, a mais importante é a etapa de Mineração e Análise de Dados (conhecido como Data Mining - DM) que visa reconhecer padrões de dados e através de técnicas empregadas em seu processo, de acordo com regras de negócio, gerar conhecimento que posteriormente será analisado.

Descoberta de Conhecimento em base de dados

Esta metodologia foi introduzida em meados da década de 80, com o objetivo de encontrar conhecimento em imensas bases de dados. Segundo Fayyad et al. [1996] o KDD consiste em um processo não trivial de identificação de padrões válidos, desconhecidos, potencialmente úteis e compreensíveis. A metodologia de KDD é composta pelas seguintes etapas [Fayyad et al. 1996]:

Ao final teremos a realização do processo de KDD; a figura 1 ilustra o processo de KDD; como pode ser observado, o processo KDD é flexível sendo possível voltar para alguma das fases anteriores quando necessário para um melhor refinamento dos dados para descoberta de conhecimento mais consistente; sendo necessária a presença humana para direcionar quais tipos de dados serão manipulados. Isto descreve o que Fayyad et al. (1996) afirmaram como o processo de KDD ser interativo e iterativo. Interativo por necessitar de apoio humano para manipulação e especificação dos dados que fazem parte do processo KDD e iterativo pela flexibilidade de voltar qualquer etapa executada previamente.

Figura 1. Processo de KDD [Fayyad et al. 1996]

Mineração e Análise de Dados

Segundo Fayyad et al. (1996) a Mineração de Dados consiste na aplicação de algoritmos para análise e descoberta de conhecimento e na produção de padrões ou modelos a partir de grandes Base de Dados. Esta etapa é estruturada em três sub etapas [Batista, 2003]:

Muitas das empresas atualmente estão utilizando a técnica de DM pelo fato de já existir diversas ferramentas disponíveis no mercado que auxiliam no processo e que são estáveis; é o caso da Oracle Data Miner. Além disso, as diversas ferramentas contam com diversos recursos por parte de tarefas e técnicas utilizadas. Witten et al. (2005), Olson et al. (2008) e Bramer (2007) apresentam algumas das áreas nas quais a Mineração de Dados é aplicada de forma satisfatória:

Figura 2. Procedimento da etapa DM.

Segundo Berry & linoff (1997) e Fayyad et al. (1996) a etapa de Mineração de Dados pode ser abordada na forma Top-Down e Bottom-Up. Assim como a flexibilidade do processo KDD, também a etapa de DM, pois pode ser utilizado as ambas abordagens para uma melhor extração dos dados.

Na abordagem Top-Down ou preditiva é feita uma análise do comportamento da Base de Dados com o passar dos tempos para verificar ou refutar noções, ideias ou relacionamentos pré-concebidos entre os dados, ou seja, teste de hipóteses.

Na abordagem Bottom-Up ou descritiva não faz preconcepção dos dados, onde os dados são analisados e deles é retirado conhecimento. Sendo um processo feito de duas maneiras distintas:

Tarefas do DM

As tarefas do DM são classificadas de acordo com a abordagem que se deseja seguir. Dependendo da abordagem e regra de negócio estabelecida nem todas as tarefas são obrigatórias, e em muitos casos muitas tarefas podem ser agrupadas constituindo uma tarefa só. A seguir serão mostradas todas as tarefas mencionadas de acordo com suas abordagens tendo em vistas que tarefas presentes nas duas abordagens serão mencionadas somente uma única vez.

Tarefas de Abordagem Top-Down

Dentro da abordagem Top-Down encontramos a Estimação, Predição e Classificação [Thuraisingham 1999]. A Estimação é o processo de predizer algum valor baseado num padrão já conhecido. Assim, pode-se estimar o valor de uma determinada variável analisando-se os valores das demais. A Predição é o processo de predizer um comportamento futuro baseado em vários valores. Semelhante às tarefas de estimação e classificação [Camilo & Silva 2009].

A Classificação é o processo de predizer algum valor para uma variável categórica. Nesta tarefa, o modelo analisa o conjunto de registros fornecidos, com cada registro já contendo a indicação à qual classe pertence, a fim de ’aprender’ como classificar um novo registro [Camilo & Silva 2009]. Os dados podem ser associados à classe pelo processo de discriminação, onde o resultado obtido provém de um valor atribuído a um registro em função de um ou mais atributos do mesmo, ou por caracterização, pela sumarização de um atributo de estudo por uma característica de um ou mais atributos [Cortês et al. 2002].

Tarefas de Abordagem Bottom-Up

Na abordagem Bottom-Up as tarefas são classificadas em aprendizado supervisionado e aprendizado não supervisionado. Na classificação em aprendizado supervisionado temos [Cortês et al. 2002]:

Na classificação em aprendizado não supervisionado temos [Cortês et al. 2002]:

Técnicas do DM

De acordo com a tarefa ou conjunto de tarefas escolhida existem técnicas utilizadas para alcançar o que foi proposto. Neste trabalho as técnicas estão organizadas de acordo com a tarefa a qual é aplicada. As tabelas 1 e 2 a seguir, mostram as principais técnicas utilizadas para aplicação da tarefa. É possível perceber, pelas tabelas 1 e 2, que existem tarefas que utilizam as mesmas técnicas. Logo, o motivo de muitas tarefas serem aglutinadas pelo uso da mesma técnica.

Tarefa Técnica
Estimação Regressão linear, Múltipla, não linear, Logística, Poisson.
Predição Regressão linear, Múltipla, não linear, Logística, Poisson.
Classificação Árvore de Decisão, Classificação Baeysiana, Rede Neural, Classificação por Regras, Análise de Vizinhança, Algoritmos Genéticos, Lógica Fuzzy.
Tabela 1. Algumas técnicas utilizadas na abordagem Top-Down baseado em [Cortês et al. 2002]
Tarefa Técnica
Análise de outliers Ferramentas de consulta e técnicas de estatística, Árvore de Decisão.
Análise de desvios Ferramentas de consulta e técnicas de estatística, Árvore de Decisão.
Visualização Agregação e gráficos diversos.
Classificação Árvore de Decisão.
Associação Análise de Correlação, Mineração baseada em Restrição.
Agrupamento Métodos de particionamento, hierárquicos, baseados em modelos, abordagem estatística e Redes Neurais.
Descrição Sumarização e Generalização dos dados baseados em caracterização, Caracterização Analítica.
Segmentação Árvore de Decisão.
Sumarização e Visualização Agregações e Gráficos diversos.
Análise de dados em formato texto Análise de dados textual e recuperação de informações, Mineração de textos.
Tabela 2. Algumas técnicas na abordagem Bottom-Up baseado em [Cortês et al. 2002]

Ferramentas para DM

Existem disponíveis no mercado, diversas ferramentas que dão suporte a etapa de DM. Algumas dessas ferramentas são disponíveis gratuitamente. A tabela 3 mostra algumas das principais ferramentas disponíveis para DM, onde é possível notar que estas ferramentas implementam diversas técnicas da DM.

Ferramenta Fornecedor Tarefas
WEKA University of Waikato Classificação, Regressão e Regras de Associação.
Intelligent Miner IBM Corp. Classificação, Regras de Associação, Clusterização e Sumarização.
Oracle Data Miner Oracle Classificação, Regressão, Associação, Clusterização e Mineração de Textos.
SAS Enterprise Miner Suite SAS Inc. Classificação, Regras de Associação, Regressão e Sumarização.
Clementine SPSS Inc. Classificação, Regras de Associação, Clusterização, Sequência e Detecção de Desvios.
Darwin Thinking Machines Classificação.
Business Objects Business Objects Classificação, Regras de Associação, Clusterização e Sumarização.
Microsoft Data Analyser Microsoft Corp. Classificação e Clusterização.
MineSet Silicon Graphics Inc. Classificação, Regras de Associação, Análise Estatística.
DBMiner DBMiner Technology Inc. Classificação, Regras de Associação e Clusterização.
Gemanics Expression Gemanics Developer Análise de Sequências.
SAS Text Miner SAS Inc. Mineração de Textos.
Tabela 3. Ferramentas DM baseado em [Rezende 2003][Amo][Camilo & Silva 2009]

Através de levantamento literário é possível concluir que a Mineração de Dados está sendo bem vista pelas empresas. Uma prova disto são os investimentos em Inteligência de Negócios. Outro ponto interessante é que existe muita literatura e ferramentas disponíveis apar aplicação desta técnica.

Contudo a maioria das literaturas abordam tarefas, técnicas e perspectivas com nomenclaturas diferentes o que é preciso uma análise dessas nomenclaturas para verificar quais termos estão sendo utilizados atualmente e quais termos descrevem um assunto comum. Também é preciso analisar a aquisição de conhecimento para uso das técnicas, ferramentas, licenças. Por fim, é possível perceber que apesar de suas limitações grandes progressos foram feitos e estão sendo realizados para o avanço da Mineração de Dados e pelo processo de Descoberta de Conhecimento em Base de Dados.

Artigos relacionados