Minera��o com aprendizagem de m�quina

Fique por dentro

A mineraç�o de sentimentos � uma �rea que est� se tornando cada vez mais relevante atualmente, j� que com a ascens�o de redes sociais e ferramentas de compartilhamento de avaliaç�es sobre produtos ou serviços, a quantidade de textos dispon�veis na web � bastante grande.

Isso caracteriza uma oportunidade para analisar esses textos com o intuito de obter os sentimentos associados. Desta forma, as empresas podem entender melhor seus clientes, identificando de forma autom�tica se as pessoas est�o falando bem ou mal e qual o sentimento que um produto em espec�fico tem trazido a seus clientes.

Este artigo apresenta o desenvolvimento de um pequeno exemplo que realiza a identificaç�o autom�tica dos sentimentos alegria e tristeza em frases, no qual o usu�rio poder� submeter um texto e ter� como resultado o sentimento correspondente. Para isso, ser�o aplicados conceitos de aprendizagem de m�quina e mineraç�o de textos na construç�o deste classificador de sentimentos.
Autores: Jones Granatyr,Juliana Ruby,Otto Robert Lessing e Fabr�cio Enembreck

A mineraç�o e an�lise de sentimentos � um campo de pesquisa que est� se tornando cada vez mais utilizado dentro da Intelig�ncia Artificial, e isso se deve ao fato de que atrav�s da utilizaç�o dessas t�cnicas, insatisfaç�es e opini�es de clientes podem ser automaticamente percebidas.

A web � um dos principais canais de comunicaç�o da atualidade, portanto, muitos usu�rios est�o conectados a redes sociais, sites de pesquisa, ferramentas de avaliaç�o e sites de com�rcio eletr�nico.

Neste contexto, geralmente os usu�rios deixam suas impress�es em forma de texto ap�s terem tido suas experi�ncias, tais como opini�es sobre viagens, hot�is, produtos ou serviços. Vamos supor que uma pessoa compre uma televis�o da marca XYZ e ap�s ter assistido alguns filmes, escreve a seguinte opini�o em uma rede social: �Estou decepcionado e frustrado com esta televis�o da XYZ, pois a resoluç�o das imagens � ruim e o som � p�ssimo!�.

Podemos notar que esta frase possui uma polaridade negativa que pode ser associada a sentimentos de raiva, tristeza ou decepç�o, denotando claramente a insatisfaç�o do cliente com o produto. Conhecendo o sentimento associado aos coment�rios, as empresas podem entender melhor as necessidades de seus clientes e tamb�m conhecer o que eles est�o sentindo em relaç�o aos produtos e serviços por ela oferecidos, bem como saber se as pessoas est�o escrevendo bem ou mal sobre a empresa.

Analisar manualmente os sentimentos de algumas poucas frases n�o � um trabalho custoso, por�m, quando o n�mero de opini�es � alto como no caso da web, s�o necess�rias t�cnicas para realizar esse processo de forma autom�tica.

Neste contexto que aparece a an�lise autom�tica de sentimentos, que visa buscar o sentimento predominante em textos por meio de t�cnicas de aprendizagem de m�quina. Ela � tamb�m uma �rea do processamento de linguagem natural (PLN) e mineraç�o de textos, que visam extrair conhecimento �til em informaç�es textuais.

Nota: Na seç�o de Links pode ser encontrado um artigo te�rico que explana todos os processos e aplicaç�es da mineraç�o de textos

Neste artigo, ser�o abordados os conceitos fundamentais sobre aprendizagem de m�quina e como utilizar essas t�cnicas no processamento autom�tico de textos, sendo explanado os conceitos sobre um dos algoritmos mais utilizados para tarefas de classificaç�o de texto, que � o Naive Bayes.

Ser� constru�do um exemplo de mineraç�o de sentimentos utilizando a linguagem Python com aux�lio na biblioteca NLTK (Natural Language Toolkit) para processamento de linguagem natural. O objetivo do exemplo � mostrar na teoria e pr�tica todas as etapas para construç�o de um sistema para identificar automaticamente os sentimentos de alegria e tristeza em frases.

Tais etapas envolvem desde a criaç�o da base de dados de treinamento, o pr�-processamento das frases at� os tentes, no qual entraremos uma nova frase e o sistema ser� capaz de identificar o sentimento correspondente.

Aprendizagem de m�quina

A aprendizagem de m�quina � um campo da Intelig�ncia Artificial que tem como objetivo fazer com que o computador aprenda por meio de treinamento, e depois, seja capaz de tomar decis�es ou indicar respostas com base no que ele aprendeu.

� similar ao processo de como os humanos aprendem a tomar decis�es ou a realizar determinadas tarefas. Considere o exemplo de um aluno que antes de uma prova de matem�tica, realiza muitos exerc�cios com o objetivo de aprender a como resolver as quest�es. Somente depois de fazer muitos exerc�cios � que este aluno estar� apto a fazer a prova e testar os seus conhecimentos.

Os humanos utilizam processos cognitivos para aprenderem a resolver os problemas, enquanto que as m�quinas precisam de algoritmos para que o processo de aprendizagem possa ocorrer.

A maioria desses algoritmos possui a caracter�stica de tomarem as decis�es por meio da an�lise de conhecimentos pr�vios, o que indica que precisamos fornecer algum tipo de base de dados ao sistema para que ele possa fazer as infer�ncias posteriores.

Existem basicamente duas abordagens para o aprendizado de m�quina, que � a supervisionada e a n�o supervisionada. A primeira � caracterizada pelo fato de que existe a figura de um supervisor ou professor que ensina o algoritmo o que cada registro significa.

Exemplos s�o os sistemas de classificaç�o, que por meio da an�lise dos dados de uma pessoa deve classificar se ela ir� ou n�o pagar um empr�stimo. No outro tipo de aprendizagem, n�o existe a figura do supervisor e o pr�prio algoritmo que dever� encontrar padr�es nos dados.

Um exemplo � o agrupamento, que por meio da an�lise de dados de clientes, pode separa-los em grupos propensos a comprar determinados tipos de produtos. No exemplo que construiremos a seguir, utilizaremos a aprendizagem supervisionada.

Passos para a construç�o de um sistema com aprendizagem de m�quina supervisionada

Esta seç�o tem o objetivo de apresentar as principais tarefas para a construç�o de um sistema de aprendizagem de m�quina, abordando a extraç�o de caracter�sticas, a construç�o da base de dados e do classificador, para, por �ltimo, mostrar como o sistema aprende e realiza previs�es. Ser� utilizado o algoritmo Naive Bayes (BOX 1) para exemplificar o processo de aprendizagem e classificaç�o.

BOX 1. Algoritmo Naive Bayes

� bastante utilizado para classificaç�o de texto e possui um forte fundamento estat�stico, utilizando v�rios conceitos de probabilidade, sendo baseado principalmente no Teorema de Bayes. Para maiores detalhes sobre seu funcionamento e toda sua fundamentaç�o te�rica, visite a seç�o de links e veja o artigo �Mineraç�o de dados na pr�tica�.

Extraç�o de caracter�sticas

O primeiro passo para ensinar um computador a identificar padr�es � a etapa de extraç�o de caracter�sticas, que consiste em analisar cada um dos objetos existentes dentro do sistema e extrair aquilo que os diferencia e � espec�fico de cada um. Para exemplificar, vamos utilizar as imagens dos personagens Homer e Bart do desenho animado Os Simpsons, as quais s�o mostradas na Figura 1.

Com base nelas, precisamos identificar os atributos �nicos de cada personagem com o objetivo de selecionar caracter�sticas �nicas. Para o Homer podemos definir o formato da cabeça oval, os fios de cabelo, o tamanho da barriga, a barba, a calça azul claro, a camisa branca e o sapato preto.

Por outro lado, para o Bart podemos selecionar o formato da cabeça e cabelo, a camisa laranja, o calç�o e o sapato azul. Como podemos notar, essas caracter�sticas s�o particulares de cada personagem e est�o presentes na maioria das imagens.

Vale tamb�m lembrar que, dependendo do tipo de aplicaç�o, ser�o necess�rias centenas ou at� milhares de objetos (imagens) para que o processo de extraç�o de caracter�sticas seja significativo.

" [...] continue lendo...

Minera��o com aprendizagem de m�quina

Aprenda com esse artigo a identificar sentimentos em frases utilizando aprendizagem de máquina.

Artigos relacionados