Mineração de Regras de Associação com a Ferramenta de Data Mining Weka

Este artigo mostra o passo-a-passo para a execução da tarefa de mineração de regras de associação transacionais na ferramenta Weka.

1. Introdução

Weka é um software livre do tipo open source para mineração de dados, desenvolvido em Java, dentro das especificações da GPL (General Public License) que ao longo dos últimos anos se consolidou como a ferramenta de mineração de dados mais utilizada em ambiente acadêmico.

Embora a ferramenta possua como ponto forte a mineração de classificadores em bases de dados, também pode ser utilizada para executar outras tarefas, especialmente a mineração de regras de associação. Curiosamente, é muito difícil encontrar artigos com exemplos de utilização da Weka no data mining de regras de associação. Esta situação serviu de motivação para a produção deste artigo, que mostra o passo-a-passo para a execução do data mining de regras de associação na Weka. O artigo é destinado a pessoas que já possuem alguma experiência no uso da ferramenta (quem já utilizou a Weka para executar algoritmos de classificação, por exemplo) e conhecem os conceitos básicos sobre regras de associação (algoritmo Apriori, medidas de interesse, etc.).

O restante do artigo está dividido da seguinte forma. A Seção 2 apresenta um exemplo possível de formatação de uma base de dados do tipo "market basket data" para mineração na Weka. A seguir, na Seção 3, apresenta-se a forma de configurar os parâmetros de entrada e executar a mineração das regras de associação. As conclusões são apresentadas na Seção 4.

2. Formatação da Base de Dados

A ferramenta Weka trabalha com arquivos de entrada no formato ARFF, que corresponde a um arquivo texto contendo um conjunto de observações, precedido por um pequeno cabeçalho. O cabeçalho é utilizado para fornecer informações a respeito dos campos que compõem o conjunto de observações.

É importante observar que o formato ARFF foi originalmente proposto para a mineração de classificadores; no entanto, ele pode ser "adaptado" para a mineração de regras de associação. Essa adaptação resulta em uma base de dados com uma estrutura um pouco esquisita, porém capaz de ser manipulada pela ferramenta. A seguir apresenta-se um exemplo de base de dados ARFF contendo 9 transações e envolvendo 6 itens.

@relation "Transacoes" @attribute I1 {y, n} @attribute I2 {y, n} @attribute I3 {y, n} @attribute I4 {y, n} @attribute I5 {y, n} @attribute I6 {y, n} @data y,y,?,?,y,? ?,y,?,y,?,? ?,y,y,?,?,? y,y,?,y,?,? y,?,y,?,?,? ?,y,y,?,?,? y,?,y,?,?,? y,y,y,?,y,? y,y,y,?,?,?

3. Mineração de Regras de Associação na Weka

A seguir apresenta-se o passo-a-passo para a mineração de regras de associação na Weka, a partir da base de dados exemplo.

PASSO 1: digite as informações da base mostrada na Figura 1 e salve com a extensão .ARFF (exemplo: “transacoes.arff”). Após abrir a Weka, clique no botão “Open file...” para importar a base.

PASSO 2: mude a caixa de seleção que mostra o atributo classe e selecione a opção “No class” (destacado na figura abaixo). Isso é feito porque na mineração de regras transacionais não existe o conceito de atributo classe (conceito associado à tarefa de classificação).

PASSO 3: clique na aba "Associate". Efetue duplo clique onde está escrito “Apriori” para poder configurar os parâmetros do algoritmo

PASSO 4: a janela de configuração irá abrir. Para executar o exemplo, você poderá configurar os parâmetros de acordo com o que está indicado na figura abaixo.

Uma breve orientação sobre a configuração destes parâmetros é apresentada a seguir. Dentro da ferramenta Weka, você pode utilizar o botão “More” para visualizar uma janela de ajuda com mais informações sobre os parâmetros.

PASSO 5: clique no botão “OK”. A seguir clique em “Start”. As regras de associação serão mineradas e exibidas na tela de resultados.

4. Conclusões

Este artigo apresentou um roteiro para a mineração de regras de associação na popular ferramenta Weka. Uma característica atraente da ferramenta é a sua simplicidade. A configuração dos parâmetros e a execução do algoritmo de mineração são feitas através de uma interface agradável e intuitiva.

Como principal característica negativa, encontra-se o fato de a base de dados a ser minerada precisar estar estruturada em um formato que não é muito prático (o que pode inviabilizar o uso da ferramenta em algumas aplicações reais). É preciso especificar todos os itens do domínio na seção de cabeçalho e indicar os itens ausentes em cada transação com o uso do símbolo "?".

Artigos relacionados