Mineração de dados na Prática – Parte 2
Artigo no estilo: Curso Neste artigo, apresentaremos um caso prático do uso de
técnicas de mineração para análise do problema de evasão em cursos
universitários. Focaremos, na primeira parte deste artigo, na preparação da
base de dados para aplicação das técnicas de mineração. Ao fazer isso, iremos
comparar também a execução das atividades com e sem o apoio de um modelo de
dados preparado especificamente para as atividades de mineração.
Autores: Péricles Magalhães e Rodrigo Spinola
Este artigo apresenta um exemplo prático do uso da mineração de dados. Para isso serão definidos dois cenários. No primeiro deles, a estratégia de mineração será definida considerando como fonte de dados a base original da organização.
Já no segundo cenário, partiremos de uma base de dados definida apenas para apoiar as atividades de mineração. Ambos os cenários serão realizados no contexto de um sistema para análise de dados sobre evasão escolar em universidades comparando o esforço envolvido nas atividades de mineração de ambos.
O modelo de dados preparado para mineração que será utilizado foi discutido em detalhes no artigo Modelo de dados para análise de informações educacionais publicado na edição 130 da SQL Magazine.
O estudo de caso descrito neste artigo parte de um cenário real em uma instituição de ensino superior, e procura demonstrar, não apenas a aplicabilidade de um modelo de dados para apoiar a mineração, como também as vantagens em utilizá-lo em detrimento à opção de partir sem uma estrutura específica para estudos de mineração de dados educacionais.
Este artigo é dividido em duas partes. Nesta primeira, faremos a análise até a fase de preparação dos dados.
Estudo de caso
O sucesso de uma aplicação de mineração de dados depende, além da escolha correta do conjunto amostral dos dados a analisar, da correta identificação dos atributos a serem investigados no processo. O modelo de dados apresentado na Figura 1 reduz o esforço necessário à identificação e seleção de atributos relevantes à identificação de indícios de evasão de estudantes.
Figura 1. Modelo de dados para estudos com mineração de dados educacionais.
Para avaliação do modelo de dados, foram elaborados dois conjuntos de documentos contendo, no primeiro conjunto, o modelo de dados proposto com descrições sobre suas entidades e atributos, enquanto que o segundo conjunto apresentava um diagrama simplificado da base de dados do sistema de processo seletivo da instituição analisada.
Foram convidados seis analistas de sistemas sem conhecimento prévio dos modelos de dados e, aleatoriamente, um dos conjuntos foi entregue para cada participante com o objetivo de que de posse unicamente do material apresentado, pudessem identificar os atributos mais relevantes ao tema da evasão de estudantes.
Todos os analistas de sistemas que participaram da atividade possuem experiência em desenvolvimento de software e análise de diagramas de entidade e relacionamento. Trata-se de um grupo entre 25 e 44 anos de idade com pelo menos um ano de experiência em desenvolvimento de sistemas e modelagem de dados. O participante mais experiente possui mais de 25 anos de atividade profissional.
Cada participante trabalhou exclusivamente com o material disponibilizado, sem que houvesse qualquer limitação ao tempo da experiência. Quatro participantes analisaram o material com o modelo proposto enquanto que três pesquisadores analisaram apenas o modelo original. Um participante analisou ambos os modelos, totalizando sete análises do conjunto.
O tempo médio das análises do material com o modelo da base de dados original foi de 33 minutos, maior que o tempo para a análise do modelo proposto, de 25 minutos. Os tempos máximo e mínimo das análises também foram menores sobre o material relativo ao modelo proposto, conforme assinalado na Tabela 1.
Modelo Proposto |
Modelo Original |
|
Tempo mínimo |
00:15 |
00:25 |
Tempo médio |
00:25 |
00:33 |
Tempo máximo |
00:43 |
00:48 |
Tabela 1. Comparativos dos tempos mínimo, médio e máximo das análises dos modelos
Vale ressaltar que não foi identificada nenhuma correlação entre os perfis dos participantes, nos aspectos escolaridade, idade ou tempo de experiência, com os tempos de análises obtidos.
Além disso, todos os participantes alegaram dificuldades na compreensão dos significados das entidades e atributos do modelo original e consequentemente na análise de sua relevância sobre o tema, situação reforçada pelo fato de apenas uma das três análises desse documento ter completado o conjunto de dez atributos solicitados.
Chama a atenção também a baixa reincidência dos atributos desse grupo nos trabalhos. Do total de vinte e quatro atributos identificados pelos analistas como relevantes, apenas dois deles aparecem em mais de uma lista.
Os analistas que trabalharam com o modelo de dados proposto identificaram vinte e seis atributos distintos considerados como relevantes na análise de evasão de estudantes. Desse conjunto, dez atributos aparecem em mais de uma lista, sendo que um deles consta em todas as quatro listas geradas.
A experiência realizada indica que mesmo havendo uma variação do tempo decorrido de acordo com a vivência e dedicação de cada analista, a utilização do modelo proposto na análise do tema sugerido reduziu o esforço para a identificação e seleção dos atributos.
Uma constatação colateral encontrada aponta que a utilização do modelo proposto resultou numa maior homogeneidade dos atributos encontrados o que, por sua vez, indica mais facilidade nas análises. Além disso, todos os participantes que analisaram o modelo original alegaram dificuldades na identificação pela falta de maiores esclarecimentos.
Preparação de dados para a mineração
Uma vez identificado o conjunto de atributos pertinentes à análise do problema a ser investigado com a mineração, é necessário construir um data set contendo os dados de entrada para os algoritmos utilizados.
Esses dados geralmente são provenientes dos bancos de dados de uma ou mais instituições analisadas podendo inclusive ser oriundos de diferentes plataformas tecnológicas (Oracle, SQL Server, PostGreSQL, etc.).
A etapa de preparação de dados para a mineração consiste, justamente, na construção desse conjunto de dados, devidamente tratado, que irá alimentar o algoritmo de mineração utilizado na sua análise.
Para a aplicação de técnicas de mineração, uma amostra de dados reais será definida a partir da qual serão realizadas quatro extraç ...
Confira outros conteúdos:
SQL SUM: somando os valores de uma...
SQL: INNER JOIN
SQL: Introdução ao Where
Faça a sua matrícula
Pagamento anual
12x no cartão
De: R$ 69,00
Por: R$ 64,90
Total: R$ 778,80
Garanta o desconto
- Formação FullStack Completa
- Carreira Front-end I e II, Algoritmo e Javascript, Back-end e Mobile
- +10.000 exercícios gamificados
- +50 projetos reais
- Comunidade com + 200 mil alunos
- Estude pelo Aplicativo (Android e iOS)
- Suporte online
- 12 meses de acesso
Pagamento recorrente
Cobrado mensalmente no cartão
De: R$ 79,00
Por: R$ 64,90 /mês
Total: R$ 778,80
Garanta o desconto
- Formação FullStack Completa
- Carreira Front-end I e II, Algoritmo e Javascript, Back-end e Mobile
- +10.000 exercícios gamificados
- +50 projetos reais
- Comunidade com + 200 mil alunos
- Estude pelo Aplicativo (Android e iOS)
- Suporte online
- Fidelidade de 12 meses
- Não compromete o limite do seu cartão
<Perguntas frequentes>
Nossos casos de sucesso
Eu sabia pouquíssimas coisas de programação antes de começar a estudar com vocês, fui me especializando em várias áreas e ferramentas que tinham na plataforma, e com essa bagagem consegui um estágio logo no início do meu primeiro período na faculdade.
Estudo aqui na Dev desde o meio do ano passado!
Nesse período a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha
empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta é continuar estudando e praticando para ser um
Full-Stack Dev!
Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma é bem intuitiva e muuuuito didática a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!
Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda não tinha visto. A didática é do jeito que qualquer pessoa consegue aprender. Sério, to apaixonado, adorando demais.
Adquiri o curso de vocês e logo percebi que são os melhores do Brasil. É um passo a passo incrível. Só não aprende quem não quer. Foi o melhor investimento da minha vida!
Foi um dos melhores investimentos que já fiz na vida e tenho aprendido bastante com a plataforma. Vocês estão fazendo parte da minha jornada nesse mundo da programação, irei assinar meu contrato como programador graças a plataforma.
Wanderson Oliveira
Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exercícios práticos que não tem como não aprender, estão de parabéns!
Obrigado DevMedia, nunca presenciei uma plataforma de ensino tão presente na vida acadêmica de seus alunos, parabéns!
Eduardo Dorneles
Aprendi React na plataforma da DevMedia há cerca de 1 ano e meio... Hoje estou há 1 ano empregado trabalhando 100% com React!
Adauto Junior
Já fiz alguns cursos na área e nenhum é tão bom quanto o de vocês. Estou aprendendo muito, muito obrigado por existirem. Estão de parabéns... Espero um dia conseguir um emprego na área.
Utilizamos cookies para fornecer uma melhor experiência para nossos usuários, consulte nossa política de privacidade.