Mineração de dados na prática – Parte 1

Este artigo apresenta um exemplo do uso da mineração de dados para análise do problema de evasão em cursos universitários. Será abordado neste primeiro artigo como podemos preparar a base de dados para a aplicação das técnicas de mineração.

Artigo no estilo: Curso

Fique por dentro
A mineração de dados apoia a descoberta de informações úteis que normalmente estão ocultas em bases de dados com grande quantidade de registros.

Neste artigo, apresentaremos um caso prático do uso de técnicas de mineração para análise do problema de evasão em cursos universitários.

Focaremos, na primeira parte deste artigo, na preparação da base de dados para aplicação das técnicas de mineração. Ao fazer isso, iremos comparar também a execução das atividades com e sem o apoio de um modelo de dados preparado especificamente para as atividades de mineração.
Autores: Péricles Magalhães e Rodrigo Spinola

Este artigo apresenta um exemplo prático do uso da mineração de dados. Para isso serão definidos dois cenários. No primeiro deles, a estratégia de mineração será definida considerando como fonte de dados a base original da organização.

Já no segundo cenário, partiremos de uma base de dados definida apenas para apoiar as atividades de mineração. Ambos os cenários serão realizados no contexto de um sistema para análise de dados sobre evasão escolar em universidades comparando o esforço envolvido nas atividades de mineração de ambos.

O modelo de dados preparado para mineração que será utilizado foi discutido em detalhes no artigo Modelo de dados para análise de informações educacionais publicado na edição 130 da SQL Magazine.

O estudo de caso descrito neste artigo parte de um cenário real em uma instituição de ensino superior, e procura demonstrar, não apenas a aplicabilidade de um modelo de dados para apoiar a mineração, como também as vantagens em utilizá-lo em detrimento à opção de partir sem uma estrutura específica para estudos de mineração de dados educacionais.

Este artigo é dividido em duas partes. Nesta primeira, faremos a análise até a fase de preparação dos dados.

Estudo de caso

O sucesso de uma aplicação de mineração de dados depende, além da escolha correta do conjunto amostral dos dados a analisar, da correta identificação dos atributos a serem investigados no processo. O modelo de dados apresentado na Figura 1 reduz o esforço necessário à identificação e seleção de atributos relevantes à identificação de indícios de evasão de estudantes.

abrir imagem em nova janela

Figura 1. Modelo de dados para estudos com mineração de dados educacionais.

Para avaliação do modelo de dados, foram elaborados dois conjuntos de documentos contendo, no primeiro conjunto, o modelo de dados proposto com descrições sobre suas entidades e atributos, enquanto que o segundo conjunto apresentava um diagrama simplificado da base de dados do sistema de processo seletivo da instituição analisada.

Foram convidados seis analistas de sistemas sem conhecimento prévio dos modelos de dados e, aleatoriamente, um dos conjuntos foi entregue para cada participante com o objetivo de que de posse unicamente do material apresentado, pudessem identificar os atributos mais relevantes ao tema da evasão de estudantes.

Todos os analistas de sistemas que participaram da atividade possuem experiência em desenvolvimento de software e análise de diagramas de entidade e relacionamento. Trata-se de um grupo entre 25 e 44 anos de idade com pelo menos um ano de experiência em desenvolvimento de sistemas e modelagem de dados. O participante mais experiente possui mais de 25 anos de atividade profissional.

Cada participante trabalhou exclusivamente com o material disponibilizado, sem que houvesse qualquer limitação ao tempo da experiência. Quatro participantes analisaram o material com o modelo proposto enquanto que três pesquisadores analisaram apenas o modelo original. Um participante analisou ambos os modelos, totalizando sete análises do conjunto.

O tempo médio das análises do material com o modelo da base de dados original foi de 33 minutos, maior que o tempo para a análise do modelo proposto, de 25 minutos. Os tempos máximo e mínimo das análises também foram menores sobre o material relativo ao modelo proposto, conforme assinalado na Tabela 1.

Modelo Proposto

Modelo Original

Tempo mínimo

00:15

00:25

Tempo médio

00:25

00:33

Tempo máximo

00:43

00:48

Tabela 1. Comparativos dos tempos mínimo, médio e máximo das análises dos modelos

Vale ressaltar que não foi identificada nenhuma correlação entre os perfis dos participantes, nos aspectos escolaridade, idade ou tempo de experiência, com os tempos de análises obtidos.

Além disso, todos os participantes alegaram dificuldades na compreensão dos significados das entidades e atributos do modelo original e consequentemente na análise de sua relevância sobre o tema, situação reforçada pelo fato de apenas uma das três análises desse documento ter completado o conjunto de dez atributos solicitados.

Chama a atenção também a baixa reincidência dos atributos desse grupo nos trabalhos. Do total de vinte e quatro atributos identificados pelos analistas como relevantes, apenas dois deles aparecem em mais de uma lista.

Os analistas que trabalharam com o modelo de dados proposto identificaram vinte e seis atributos distintos considerados como relevantes na análise de evasão de estudantes. Desse conjunto, dez atributos aparecem em mais de uma lista, sendo que um deles consta em todas as quatro listas geradas.

A experiência realizada indica que mesmo havendo uma variação do tempo decorrido de acordo com a vivência e dedicação de cada analista, a utilização do modelo proposto na análise do tema sugerido reduziu o esforço para a identificação e seleção dos atributos.

Uma constatação colateral encontrada aponta que a utilização do modelo proposto resultou numa maior homogeneidade dos atributos encontrados o que, por sua vez, indica mais facilidade nas análises. Além disso, todos os participantes que analisaram o modelo original alegaram dificuldades na identificação pela falta de maiores esclarecimentos.

Preparação de dados para a mineração

Uma vez identificado o conjunto de atributos pertinentes à análise do problema a ser investigado com a mineração, é necessário construir um data set contendo os dados de entrada para os algoritmos utilizados.

Esses dados geralmente são provenientes dos bancos de dados de uma ou mais instituições analisadas podendo inclusive ser oriundos de diferentes plataformas tecnológicas ("

[...] continue lendo...

Artigos relacionados