A aprendizagem de máquina é uma subárea da Inteligência Artificial que visa dotar as máquinas de habilidades para aprenderem, assim como os seres humanos fazem. Por exemplo, para um aluno aprender determinados cálculos em uma aula de matemática, ele precisará fazer vários exercícios repetitivos com o intuito de praticar até conseguir atingir um bom nível de aprendizado. Um computador, por sua vez, aprende de forma bastante similar; porém, em ambientes comerciais são utilizados dados de bases em conjunto com algoritmos desenvolvidos especificamente para esse fim. Com isso, para que um computador consiga aprender alguma coisa são necessários basicamente dois componentes principais: os dados e os algoritmos que possam lidar com esses dados.
Existem diversas técnicas de aprendizagem de máquina ou mineração de dados, e cada uma delas está relacionada a diferentes tipos de informações e/ou conhecimento que podem ser gerados como resultado. Uma das principais e mais comumente utilizadas é a tarefa de classificação, que consiste em observar dados do passado para rotular novos registros que até então não se sabe a que classe pertencem. Tomando como base a Tabela 1, que representa os dados históricos de vinte pessoas, deseja-se prever que tipo de carro elas irão comprar com base em suas características pessoais (a próxima seção discorre sobre os campos dessa tabela). Em outras palavras, o objetivo é encontrar uma relação entre o tipo de carro que uma pessoa irá comprar com os atributos idade, renda mensal e casa própria. Baseado nisso, um problema de classificação é composto por um conjunto de atributos previsores e um atributo meta ou classe, e o objetivo é prever o valor da classe com os outros atributos.
Idade (previsor) |
Renda mensal (previsor) |
Casa própria (previsor) |
Tipo de carro (classe) |
18-28 |
Entre 3001 e 6000 |
Sim |
Popular |
29-39 |
Entre 3001 e 6000 |
Não |
Luxo |
40+ |
Entre 1501 e 3000 |
Não |
Popular |
40+ |
Até 1500 |
Não |
Popular |
29-39 |
Entre 1501 e 3000 |
Sim |
Popular |
18-28 |
Mais que 6000 |
Não |
Luxo |
29-39 |
Entre 3001 e 6000 |
Sim |
Luxo |
18-28 |
Mais que 6000 |
Não |
Popular |
40+ |
Entre 3001 e 6000 |
Sim |
Popular |
18-28 |
Até 1500 |
Não |
Luxo |
29-39 |
Entre 3001 e 6000 |
Não |
Popular |
40+ |
Até 1500 |
Não |
Luxo |
18-28 |
Mais que 6000 |
Sim |
Luxo |
29-39 |
Mais que 6000 |
Sim |
Luxo |
40+ |
Até 1500 |
Sim |
Luxo |
40+ |
Entre 1501 e 3000 |
Sim |
Luxo |
18-28 |
Entre 1501 e 3000 |
Sim |
Popular |
29-39 |
Entre 1501 e 3000 |
Não |
Popular |
40+ |
Mais que 6000 |
Sim |
Popular |
18-28 |
Entre 1501 e 3000 |
Sim |
Popular |
Tabela 1. Base de dados de exemplo.
É importante salientar que para que se consiga realizar uma previsão são necessários dados históricos e que a classe seja conhecida. Esse processo de conhecer previamente a classe é chamado de aprendizagem de máquina supervisionada, ou seja, existe a figura de um supervisor que irá indicar a que classe cada um dos registros da base de dados pertence. Por exemplo, o primeiro registro da Tabela 1 é uma pessoa na faixa de 18-28 anos, que possui uma renda mensal entre 3001 e 6000, possui casa própria e adquiriu um carro popular. Assim como esse registro, todos ...