Mineração de dados com árvores de decisão

Veja neste artigo como construir árvores de decisão para classificar risco de crédito.

Fique por dentro
Este artigo apresenta uma demonstração prática dos cálculos necessários para a construção de uma árvore de decisão, bem como o desenvolvimento de uma aplicação em Java que realiza o processo de classificação e tomada de decisão utilizando esses conceitos.

A análise de risco para concessão de empréstimos financeiros é utilizada como cenário, no qual o usuário informa algumas características da pessoa e tem como resultado o risco de concessão do empréstimo.

Muitas empresas podem necessitar de um sistema que apoie o processo de tomada de decisão de maneira inteligente utilizando experiências passadas. Dentro deste contexto, podemos citar como exemplo instituições financeiras, agentes imobiliários, departamentos de bioinformática e áreas comerciais.

Dessa forma, o processo de decisão pode ser automatizado, o que acarreta em melhor precisão e agilidade, tornando o processo impessoal e reduzindo a possibilidade de fraudes.
Autores: Jones Granatyr, Fábio Spak, Fabrício Enembreck e Otto Robert Lessing

Com a crescente demanda por informações, cada vez mais nos deparamos com muitos megabytes de dados, os quais nem sempre são aproveitados na sua totalidade. Cada vez mais bancos de dados são alimentados e esquecidos, o que pode acarretar em conhecimentos valiosos simplesmente perdidos ou não aproveitados.

Para ajudar a resolver este problema, a inteligência artificial tem possibilitado a utilização dessas informações para auxiliar os usuários no processo de tomada de decisão.

Existem diversos exemplos de aplicações, como em processos de venda nos quais os dados podem ser analisados, o que pode favorecer a realização de promoções de vendas em produtos sem giro ou então sugerir ao cliente uma possível compra de acordo com o seu perfil.

As instituições financeiras, por sua vez, podem querer saber se um cliente é um investidor em potencial ou se representa um risco à concessão de crédito. As equipes de manutenção de uma ferrovia podem analisar dados referentes a falhas em seus maquinários e assim determinar se é recorrente dentro de um período, otimizando a manutenção e os processos de garantia.

Em todos esses contextos, a utilização de computadores para predizer uma determinada situação é possível com uso de ferramentas computacionais, de modo que utilizem informações fornecidas previamente. O processo de aprendizagem consiste basicamente em encontrar um padrão em bases de dados, utilizando-o na previsão de novas situações.

O objetivo deste artigo é apresentar conceitos sobre uma das técnicas que pode ser utilizada para estas tarefas, ou seja, as árvores de decisão. Serão apresentados os conceitos fundamentais, funcionamento em tarefas de classificação e um passo a passo que mostra a construção manual de uma árvore de decisão por meio dos cálculos de ganho de informação e entropia. Será também mostrado o desenvolvimento prático de uma aplicação para análise de riscos para concessão de empréstimos, utilizando a linguagem Java e a biblioteca Weka.

Árvores de Decisão

Uma árvore de decisão pode ser vista como um fluxograma que representa de forma gráfica o processo de tomada de decisão. Empresas podem utilizá-la diante de situações problema do dia a dia, como conceder um empréstimo a um potencial cliente ou realizar análises financeiras, por exemplo.

Por outro lado, os indivíduos comuns podem necessitar delas para serem ajudados em algum processo do dia a dia, como a compra de um carro. O processo de decisão faz parte da vida do ser humano, entretanto, para analisar grandes volumes de dados são necessários modelos computacionais que possam fornecer certa precisão e agilidade.

Os elementos que compõem uma árvore de decisão são mostrados na Figura 1, que representa o processo de escolha de um automóvel por um comprador. Note que estão presentes algumas variáveis que podem ser decisivas no processo de compra, como o preço, consumo de combustível e opcionais. Neste exemplo, o atributo preço encontra-se na raiz da árvore porque ele é o mais significativo dos três, ou seja, a primeira condição que o usuário leva em consideração no momento da compra.

Veja também na Figura 1 que os valores possíveis para este atributo estão divididos em duas faixas de valores (sendo nomeados como ramos) e variam entre menor que R$ 20.000 e maior ou igual que R$ 20.000. O mesmo ocorre para o atributo consumo que possui os valores baixo ou moderado.

Similarmente, o atributo opcionais apresenta os valores sim ou não. Por fim, os nós folhas (em azul) representam o resultado final do processo de tomada de decisão, e indicam se a pessoa irá ou não comprar o automóvel.

Em suma, o nó raiz representa o atributo mais significativo entre todos os outros, os ramos contém os valores possíveis para cada um, enquanto que os nós folhas mostram a decisão.

abrir imagem em nova janela

Figura 1. Árvore de decisão para compra de automóveis

Para exemplificar o processo de tomada de decisão, imagine uma pessoa que disponha de R$ 25.000, gostaria que o consumo fosse baixo e não faz questão que o carro contenha opcionais. Tomando como base esses valores, precisamos percorrer a árvore a partir do nó raiz até chegar a um nó folha. Como o preço é o primeiro atributo a ser comparado por estar na raiz e está na faixa acima R$ 20.000, tomaremos o caminho à direita da árvore (1), chegando ao atributo consumo. " [...] continue lendo...

Artigos relacionados