Extração de Documentos de sites externos e Indexação

22/11/2016

0

Bom dia, estou precisando desenvolver um sistema parecido com um motor de busca, para pesquisar por exemplo todo documento que tiver presente a palavra "contratação direta", explicando melhor, estou precisando indexar os arquivos do diário oficial do estado ("http://www.tjma.jus.br/inicio/diario") , todos os diários estão abaixo desta url, por exemplo ("http://www3.tjma.jus.br/diario/diarios/diario_21112016_112642_213.pdf.pdf") vai me retornar um arquivo pdf, então eu teria que acessar todos os diretórios abaixo de "http://www.tjma.jus.br/inicio/diario", ler os arquivos pdf, extrair o texto e criar os índices com o Apache Lucene, a questão é, como posso acesar os arquivos pdfs deste diretório?
Ricardo Pereira

Ricardo Pereira

Responder

Utilizamos cookies para fornecer uma melhor experiência para nossos usuários, consulte nossa política de privacidade.

Aceitar