Extra��o de Documentos de sites externos e Indexa��o

22/11/2016

Java Engenharia de Software Infraestrutura

Bom dia, estou precisando desenvolver um sistema parecido com um motor de busca, para pesquisar por exemplo todo documento que tiver presente a palavra "contrata��o direta", explicando melhor, estou precisando indexar os arquivos do di�rio oficial do estado ("http://www.tjma.jus.br/inicio/diario") , todos os di�rios est�o abaixo desta url, por exemplo ("http://www3.tjma.jus.br/diario/diarios/diario_21112016_112642_213.pdf.pdf") vai me retornar um arquivo pdf, ent�o eu teria que acessar todos os diret�rios abaixo de "http://www.tjma.jus.br/inicio/diario", ler os arquivos pdf, extrair o texto e criar os �ndices com o Apache Lucene, a quest�o �, como posso acesar os arquivos pdfs deste diret�rio?

Ricardo Pereira

Curtir t�pico + 0

Responder