A análise de risco para concessão de
empréstimos financeiros é utilizada como cenário, no qual o usuário informa
algumas características da pessoa e tem como resultado o risco de concessão do
empréstimo. Muitas empresas podem necessitar de
um sistema que apoie o processo de tomada de decisão de maneira inteligente
utilizando experiências passadas. Dentro deste contexto, podemos citar como
exemplo instituições financeiras, agentes imobiliários, departamentos de
bioinformática e áreas comerciais. Dessa forma, o processo de decisão pode ser
automatizado, o que acarreta em melhor precisão e agilidade, tornando o
processo impessoal e reduzindo a possibilidade de fraudes.
Autores: Jones Granatyr, Fábio Spak, Fabrício Enembreck e Otto Robert Lessing
Com a crescente demanda por informações, cada vez mais nos deparamos com muitos megabytes de dados, os quais nem sempre são aproveitados na sua totalidade. Cada vez mais bancos de dados são alimentados e esquecidos, o que pode acarretar em conhecimentos valiosos simplesmente perdidos ou não aproveitados.
Para ajudar a resolver este problema, a inteligência artificial tem possibilitado a utilização dessas informações para auxiliar os usuários no processo de tomada de decisão.
Existem diversos exemplos de aplicações, como em processos de venda nos quais os dados podem ser analisados, o que pode favorecer a realização de promoções de vendas em produtos sem giro ou então sugerir ao cliente uma possível compra de acordo com o seu perfil.
As instituições financeiras, por sua vez, podem querer saber se um cliente é um investidor em potencial ou se representa um risco à concessão de crédito. As equipes de manutenção de uma ferrovia podem analisar dados referentes a falhas em seus maquinários e assim determinar se é recorrente dentro de um período, otimizando a manutenção e os processos de garantia.
Em todos esses contextos, a utilização de computadores para predizer uma determinada situação é possível com uso de ferramentas computacionais, de modo que utilizem informações fornecidas previamente. O processo de aprendizagem consiste basicamente em encontrar um padrão em bases de dados, utilizando-o na previsão de novas situações.
O objetivo deste artigo é apresentar conceitos sobre uma das técnicas que pode ser utilizada para estas tarefas, ou seja, as árvores de decisão. Serão apresentados os conceitos fundamentais, funcionamento em tarefas de classificação e um passo a passo que mostra a construção manual de uma árvore de decisão por meio dos cálculos de ganho de informação e entropia. Será também mostrado o desenvolvimento prático de uma aplicação para análise de riscos para concessão de empréstimos, utilizando a linguagem Java e a biblioteca Weka.
Árvores de Decisão
Uma árvore de decisão pode ser vista como um fluxograma que representa de forma gráfica o processo de tomada de decisão. Empresas podem utilizá-la diante de situações problema do dia a dia, como conceder um empréstimo a um potencial cliente ou realizar análises financeiras, por exemplo.
Por outro lado, os indivíduos comuns podem necessitar delas para serem ajudados em algum processo do dia a dia, como a compra de um carro. O processo de decisão faz parte da vida do ser humano, entretanto, para analisar grandes volumes de dados são necessários modelos computacionais que possam fornecer certa precisão e agilidade.
Os elementos que compõem uma árvore de decisão são mostrados na Figura 1, que representa o processo de escolha de um automóvel por um comprador. Note que estão presentes algumas variáveis que podem ser decisivas no processo de compra, como o preço, consumo de combustível e opcionais. Neste exemplo, o atributo preço encontra-se na raiz da árvore porque ele é o mais significativo dos três, ou seja, a primeira condição que o usuário leva em consideração no momento da compra.
Veja também na Figura 1 que os valores possíveis para este atributo estão divididos em duas faixas de valores (sendo nomeados como ramos) e variam entre menor que R$ 20.000 e maior ou igual que R$ 20.000. O mesmo ocorre para o atributo consumo que possui os valores baixo ou moderado.
Similarmente, o atributo opcionais apresenta os valores sim ou não. Por fim, os nós folhas (em azul) representam o resultado final do processo de tomada de decisão, e indicam se a pessoa irá ou não comprar o automóvel.
Em suma, o nó raiz representa o atributo mais significativo entre todos os outros, os ramos contém os valores possíveis para cada um, enquanto que os nós folhas mostram a decisão.
Figura 1. Árvore de decisão para compra de automóveis
Para exemplificar o processo de tomada de decisão, imagine uma pessoa que disponha de R$ 25.000, gostaria que o consumo fosse baixo e não faz questão que o carro contenha opcionais. Tomando como base esses valores, precisamos percorrer a árvore a partir do nó raiz até chegar a um nó folha. Como o preço é o primeiro atributo a ser comparado por estar na raiz e está na faixa acima R$ 20.000, tomaremos o caminho à direita da árvore (1), chegando ao atributo consumo.
Como em nosso exemplo a pessoa gostaria que o consumo fosse baixo, devemos seguir para o lado esquerdo da árvore, o que nos leva ao atributo opcionais (2). O valor do atributo opcionais é não em nosso exemplo (3), chegando finalmente ao nó folha “comprar” (4), o qual representa a decisão final. Note na Figura 1 que este caminho está numerado.
Uma árvore de
decisão também pode ser vista como um conjunto de regras do tipo SE – ENTÃO.
Tendo como base o exemplo anterior, podemos ter a seguinte regra: Se preço está
no intervalo [>= 20.000] E c ...