Mineração de Textos

Modelagem

11/09/2014

Pessoal, estou realizando com trabalho acadêmico em cima da mineração de textos. Estou com certa dificuldade em utilizar a ferramenta Rapidminer. Alguns tutoriais desatualizados, com informações "soltas". Alguém pode por favor me ajudar?

Dese já agradeço muito
Franciele Manica

Franciele Manica

Curtidas 0

Melhor post

Marisiana Battistella

Marisiana Battistella

13/09/2014

A mineração de textos é uma subárea da mineração de dados que consiste em extrair informações de dados não estruturados ou semi-estruturados.
Esses dados são encontrados em documentos de texto como: livros, jornais, revistas, páginas Web, blogs, perfis de redes sociais, e-mails, arquivos PDF, documentos XML, arquivos JSON, etc.
Com a mineração de texto pode-se extrair informação relevante de uma grande base de textos, sem precisar lê-los previamente. Outra utilização, seria o auxílio na navegação para encontrar o que se deseja.
GOSTEI 1

Mais Respostas

Marisiana Battistella

Marisiana Battistella

11/09/2014

Olá Franciele!
Do que exatamente você precisa?
Você precisa de material de apoio, estudo?
GOSTEI 0
Mariana Carvalho

Mariana Carvalho

11/09/2014

Mineração textos? poderia informar com mais detalhes?
GOSTEI 0
Franciele Manica

Franciele Manica

11/09/2014

Oi Mari!

Isso, preciso saber como minerar textos com ela, como gerar relatórios, como aplicar duas técnicas em sequência, como utilizar o complemento do Weeka que tem disponível... na verdade preciso de tudo! hehehehe

Se puder me ajudar te agradeceria muito!
GOSTEI 0
Marisiana Battistella

Marisiana Battistella

11/09/2014

Quando a gente está começando é dificil de conseguir juntar as informações e conseguir entender tudo em um contexto maior. Já passei por uma situação parecida e sei como é...
Eu não conheço essa ferramenta que vc está utilizando, mas, por experiência própria, as melhores informações então nos manuais da própria ferramenta ([url]http://rapidminer.com/documentation/[/url]). Por mais que as vezes não tenha versões em português, vale utilizar o google translator (no caso de ter dificuldades com inglês) pra tentar entender as idéias principais pra saber pra onde direcionar as pesquisas sem q os assuntos fiquei tão desligados uns dos outros.

Encontrei este tutorial que parece ter um conteúdo mais completo: [url]http://www.dataprix.com/rapidminer-tutorial-online-operadores[/url]
Você também pode utilizar os videos disponíveis no youtube, por mais que sejam outro idioma, assistindo sempre se consegue assimilar alguma coisa nova.
Canal do youtube: [url]https://www.youtube.com/user/RapidIVideos[/url]
Tem esse tutorial: [url]https://www.youtube.com/user/neuralmarkettrends1/videos[/url]

Espero que esse material te ajude...
GOSTEI 0
Marisiana Battistella

Marisiana Battistella

11/09/2014

Essa ferramenta é free?
GOSTEI 0
Mariana Carvalho

Mariana Carvalho

11/09/2014

Marisiana, para que server o a mineração de textos?
GOSTEI 0
Alex Lekao

Alex Lekao

11/09/2014

Legal,

Desconhecia. rsrsr

Acho que a IBM tem ferramentas para fazer isso tambem. rsrsr

Se nao me engano isso foi utilizado na copa aqui no Brasil para tentar prever e "monitorar" comportamentos na web a respeito da copa, a ferramenta monitorava os Twits e com uma padrao iria medindo grau de satisfacao, contentamento, raiva, entre outros, a respeito dos jogos, etc.

Sei que aparentemente nao tem nada a ver com o post, mas acho que reforca a explicacao dada pela Marisiana. rsrsr

Abraco.
GOSTEI 0
Mariana Carvalho

Mariana Carvalho

11/09/2014

Imagino como deve ser, mas não assimilei bem como pode ser possivel pegar dados de um "texto". mas tudo bem :-)
GOSTEI 0
Alex Lekao

Alex Lekao

11/09/2014

Oi Mariana, eu tambem nao conheco mas imagino que seja da seguinte forma.

Normalmente os arquivos respeitam uma padronizacao, pensando em csv, a tabulacao define a troca de campos, ou o pipe( | ), ou o ponto e virgula( ; ), e tudo isso sera tomado como parametro para fazer a coleta, terceira coluna, vigesima linha, essas coisas.

Como disse, imagino que seja dessa forma, afinal desconheco as ferramentas e a metodologia. rsrsr

Abraco.
GOSTEI 0
Mariana Carvalho

Mariana Carvalho

11/09/2014

csv(é excel?)esqueci! mas se for excel, acho que muitos bancos conseguem fazer uma extração deles ou acharia mais complicado retirar de arquivos do word ou pdf.
GOSTEI 0
Franciele Manica

Franciele Manica

11/09/2014

Oi Mari!

Realmente nos sentimos bem perdidas no começo.

Estou usando o translate sim, pois meu inglês não é dos melhores.

Estou com dificuldade em estruturar os dados a serem minerados. A aplicação das técnicas está bem complicado.

OS tutorias estou revirando para ver ser encontro algo que me ajude.

Muito obrigado pela ajuda!
GOSTEI 0
Alex Lekao

Alex Lekao

11/09/2014

Nao necessariamente, o excel abre o csv normalmente.

Ele eh mais um arquivo de estrutura padronizada para exportacao e importacao de dados ou compartilhamento de dados, etc.

No caso listas de contatos, arquivos de dados, como vc mencionou do excel, entre outros.

nao sei se esse tecnica/ ferramente seja especificamente para retirar dados de arquivos word ou pdf, mas acredito que nao seja dificil, visto que ja eh feito isso de muitas formas, inclusive pesquisas do google por exemplo, ja leem os arquivos.

csv(é excel?)esqueci! mas se for excel, acho que muitos bancos conseguem fazer uma extração deles ou acharia mais complicado retirar de arquivos do word ou pdf.
GOSTEI 0
Marisiana Battistella

Marisiana Battistella

11/09/2014

Imagino como deve ser, mas não assimilei bem como pode ser possivel pegar dados de um "texto". mas tudo bem :-)

São as próprias ferramentas que fazem isso, elas possuem os recursos necessários para isso...
O que se precisa saber, de um modo mais geral, é utilizar a ferramenta, entender as funcionalidades dela e saber refinar as informações.
GOSTEI 0
Marisiana Battistella

Marisiana Battistella

11/09/2014

Legal,

Desconhecia. rsrsr

Acho que a IBM tem ferramentas para fazer isso tambem. rsrsr

Se nao me engano isso foi utilizado na copa aqui no Brasil para tentar prever e "monitorar" comportamentos na web a respeito da copa, a ferramenta monitorava os Twits e com uma padrao iria medindo grau de satisfacao, contentamento, raiva, entre outros, a respeito dos jogos, etc.

Sei que aparentemente nao tem nada a ver com o post, mas acho que reforca a explicacao dada pela Marisiana. rsrsr

Abraco.


Tem a ver com o post sim, Alex!
A IBM tem ferramentas para diversas finalidades inclusive essas que vc citou, uma delas é a SmarterAnalytics que é utilizada para extrair informações dos Big Data, utilizando análises preditivas, probabilidades, etc.
GOSTEI 0
Marisiana Battistella

Marisiana Battistella

11/09/2014

Oi Mari!

Realmente nos sentimos bem perdidas no começo.

Estou usando o translate sim, pois meu inglês não é dos melhores.

Estou com dificuldade em estruturar os dados a serem minerados. A aplicação das técnicas está bem complicado.

OS tutorias estou revirando para ver ser encontro algo que me ajude.

Muito obrigado pela ajuda!


Por nada Franciele!
Vc utiliza a modelagem multidimensional de dados?
GOSTEI 0
Alex Lekao

Alex Lekao

11/09/2014

Show!!!

Sabia que eles atuam em Big Data entre outras areas, mas nao conheco as ferramentas. rsrsr

Vejo a IBM como se consolidando cada vez mais no BI e BigData.

Obrigado pelas informacoes.

Abraco.

Legal,

Desconhecia. rsrsr

Acho que a IBM tem ferramentas para fazer isso tambem. rsrsr

Se nao me engano isso foi utilizado na copa aqui no Brasil para tentar prever e "monitorar" comportamentos na web a respeito da copa, a ferramenta monitorava os Twits e com uma padrao iria medindo grau de satisfacao, contentamento, raiva, entre outros, a respeito dos jogos, etc.

Sei que aparentemente nao tem nada a ver com o post, mas acho que reforca a explicacao dada pela Marisiana. rsrsr

Abraco.


Tem a ver com o post sim, Alex!
A IBM tem ferramentas para diversas finalidades inclusive essas que vc citou, uma delas é a SmarterAnalytics que é utilizada para extrair informações dos Big Data, utilizando análises preditivas, probabilidades, etc.
GOSTEI 0
Marisiana Battistella

Marisiana Battistella

11/09/2014

Por nada Alex!
Eu não sei muito sobre as estatísticas, mas IBM tá investindo fortemente na Análise de Dados e possui soluções com recursos bem evoluídos.
Quando comecei a conhecer o trabalho da IBM fiquei fascinada com a atuação deles, pois eu sempre via a IBM relacionando com hardware.
GOSTEI 0
Marisiana Battistella

Marisiana Battistella

11/09/2014

Por nada Alex!
Eu não sei muito sobre as estatísticas, mas IBM tá investindo fortemente na Análise de Dados e possui soluções com recursos bem evoluídos.
Quando comecei a conhecer o trabalho da IBM fiquei fascinada com a atuação deles, pois eu sempre via a IBM relacionando com hardware.
GOSTEI 0
Mariana Carvalho

Mariana Carvalho

11/09/2014

Esse assunto é demais para mim, vou ficar só com o banco mesmo por enquanto.
GOSTEI 0
Marisiana Battistella

Marisiana Battistella

11/09/2014

É Mariana, a metodologia é diferente da dos sistemas transacionais que aprendemos na graduação, embora existam semelhanças.
GOSTEI 0
Alex Lekao

Alex Lekao

11/09/2014

Oi Marisiana,

eu tambem tinha a impressao do Hardware, comecei a perceber essa atuacao depois da faculdade e materiais e comerciais em radio, e tal.

Sou suspeito para falar em IBM, digamos que seja meu sonho de consumo profissional. rsrsr

Por nada Alex!
Eu não sei muito sobre as estatísticas, mas IBM tá investindo fortemente na Análise de Dados e possui soluções com recursos bem evoluídos.
Quando comecei a conhecer o trabalho da IBM fiquei fascinada com a atuação deles, pois eu sempre via a IBM relacionando com hardware.


Eu gosto demais de dados, analise e mineracao, organizacao, transformacao, etc. rsrsr

Pena nao poder me envolver mais e evoluir mais.
GOSTEI 0
Marisiana Battistella

Marisiana Battistella

11/09/2014

Mas sempre está em tempo!
Se você que isso mesmo, faça acontecer e vá alterando a rotina até conseguir encaixar isso no teu dia-a-dia.
Com o tempo vc substitui e fica fazendo só o que vc gosta de fazer.
GOSTEI 0
Mariana Carvalho

Mariana Carvalho

11/09/2014

É Mariana, a metodologia é diferente da dos sistemas transacionais que aprendemos na graduação, embora existam semelhanças.


Por uma simples leitura da pra perceber que a area é outra, apesar de ser ligada a banco de dados, a forma como se trabalha é diferente!
GOSTEI 0
Marisiana Battistella

Marisiana Battistella

11/09/2014

Resumidamente, podemos dividir os sistemas de TI em transacional (OLTP) e analítico (OLAP).
Em geral, podemos entender que os sistemas OLTP fornecem dados para os data warehouse e os sistemas OLAP ajudam a analisar os dados dos data warehouse .

Lembra que a gente estuda sobre OLTP e OLAP em uma disciplina da graduação?
Mas na graduação o foco são os sistemas OLTP, pois eles são a origem.
GOSTEI 0
Mariana Carvalho

Mariana Carvalho

11/09/2014

Sim, já li alguns assuntos, é bem teorico por sinal.
GOSTEI 0
Marisiana Battistella

Marisiana Battistella

11/09/2014

"O princípio de toda prática é uma teoria." =D
GOSTEI 0
Alex Lekao

Alex Lekao

11/09/2014

Eh tenho tentando fazer isso.

Feliz ou infelizmente, tenho que ir devagar, tenho alguns processos a cumprir primeiro antes de colocar alguns outros em pratica.

Como hj tenho que coordenar o departamento, entao acabo perdendo bastante tempo, assim que conseguir que o pessoal ande mais sozinho e ter alguem cuidando de outras areas relacionadas a infra estrutura, e suporte no caso, acredito que vou conseguir me dedicar mais a isso.

Sem contar que vou precisar de alguem para me ajudar com a parte leve do tratamento dos dados, os scripts basicos para os relatorios, que aparecem todo dia quase. kkkk

Obrigado pelo incentivo.

Abraco.

Mas sempre está em tempo!
Se você que isso mesmo, faça acontecer e vá alterando a rotina até conseguir encaixar isso no teu dia-a-dia.
Com o tempo vc substitui e fica fazendo só o que vc gosta de fazer.
GOSTEI 0
Alex Lekao

Alex Lekao

11/09/2014

E na pratica a gente aprende que a teoria basicamenet nao funciona. kkkkk

=b

P.S.: So uma piadinha que sempre faziamos nos lugares onde trabalhei. rsrsr

"O princípio de toda prática é uma teoria." =D
GOSTEI 0
Marisiana Battistella

Marisiana Battistella

11/09/2014

Não funciona porque as pessoas não colocam a teoria em prática e com isso, muitas vezes deixam a desejar... =D
GOSTEI 0
Marisiana Battistella

Marisiana Battistella

11/09/2014

É claro que não tem que seguir tudo a risca, porque sabemos que a realidade é diferente para cada caso.
Mas sempre têm-se vantagem, seja em termos de organização, ganho de tempo, controle de qualidade, performance dos projetos, etc.
GOSTEI 0
Alex Lekao

Alex Lekao

11/09/2014

Sim com certeza.

Eh claro que a expressao era uma piada que o pessoal costumeiramente usava.

Porque muito daquile conteudo teorico passado por professores etc, na pratica era diferente, e em alguns casos "extremos" nao funcionava mesmo. rsrsr
GOSTEI 0
Marisiana Battistella

Marisiana Battistella

11/09/2014

Não sei se estou certa ou errada, mas a visão que tenho é que, geralmente, quando a teoria não funcionada nada na prática é porque as coisas foram começadas erradas. Isso pode ser por N motivos, talvez a pressa, a falta de conhecimento, ou falta de experiência,...
GOSTEI 1
Alex Lekao

Alex Lekao

11/09/2014

Pois eh.... rsrsr
GOSTEI 0
POSTAR