Weka Software: Mineração de dados com Weka
Este artigo apresenta o uso da ferramenta Weka na aplicação de algoritmos de classificação para mineração de dados. Veja seu uso com um exemplo prático para predição da existência de vítimas em acidentes de trânsito.
Várias ferramentas têm sido desenvolvidas para
mineração de dados, uma delas será explorada neste artigo, a ferramenta Weka. A utilização desta ferramenta
possibilita o uso de diversos algoritmos de classificação. Esta discussão é útil
para quem deseja conhecer mais sobre classificadores de dados, algoritmos de
classificação e sobre identificação de padrões. Os dados a serem classificados
serão retirados do site dataPoa, onde é possível consultar informações de
diversas áreas. A área escolhida foi acidentes de trânsito, desta forma o
artigo também é útil para quem se interessa por estatísticas de acidentes de
trânsito e tomada de decisão em situações de prestação de socorro às vítimas.
Autores: Marcelo Josué Telles e Paulo Henrique Santini
A mineração de dados consiste em um processo onde são aplicados algoritmos nos dados de um determinado domínio para encontrar padrões e informações relevantes. Geralmente os dados são volumosos e possuem grande variação entre os elementos, o que torna o processo de descoberta de informação trabalhoso, porém gratificante, pois resulta na descoberta de algo raro e preciso, daí o nome mineração de dados. Para dar suporte à mineração de dados, existem diferentes abordagens:
· Classificação Probabilística: busca prever a classe que maximiza a probabilidade posterior. A tarefa principal é estimar a probabilidade para cada classe, assumindo que os atributos são independentes, mesmo assim estes classificadores são interessantes para muitas aplicações;
· Arvores de decisão: neste classificador existe uma hierarquia de nós que são conectados por ramos. A classificação dos dados é feita em cada nível da árvore, pois são seguidos ramos até atingir os nós folha;
· Análise discriminante linear: este classificador parte do conhecimento de que os elementos observados pertencem a diversos subgrupos e procura-se determinar funções das “n” variáveis observadas que melhor permitam distinguir ou discriminar entre esses subgrupos ou classes;
· Máquinas de vetor de suporte: nestes classificadores ocorre a classificação das entradas em duas possíveis classes, o que o torna um classificador linear binário não probabilístico.
Em específico, a classificação é uma tarefa da mineração de dados que associa ou classifica objetos a determinadas classes. Seu objetivo é prever uma classe de um novo dado automaticamente. Algoritmos de classificação são muito utilizados na mineração de dados.
Isto pode ser explicado pelo fato da classificação ser uma das atividades que mais realizamos para compreender o ambiente em que vivemos. Estamos sempre classificando o que vemos em nossa volta e, atribuindo a cada classe identificada um tratamento diferente.
Na mineração de dados, a tarefa de classificar está associada à atribuição de uma classe predefinida a novos fatos que estão em análise. Dessa forma, esses algoritmos apoiam o entendimento de dados ou ajudam a prever como novos dados irão se comportar.
Por exemplo, uma base de dados que armazena informações sobre acidentes de trânsito, baseado em históricos de transações anteriores, pode-se classificar quais acidentes resultaram (ou resultarão) em vítimas fatais a partir de suas características.
Os classificadores oferecem uma ferramenta para inferência estatística utilizando o raciocínio probabilístico que engloba teoria de grafos.
A relação entre os eventos é estabelecida através da teoria de probabilidade. Um grupo importante de classificadores se apoia na teoria conhecida como Redes Bayesianas (RBs) proposta pelo matemático Thomas Bayes. " [...] continue lendo...
Artigos relacionados
-
Artigo
-
Artigo
-
Artigo
-
Artigo
-
Artigo