Possibilitando alta performance na indexa��o com o Apache Lucene

Possibilitando alta performance na indexaç�o com o Apache Lucene - Parte I

A Apache desenvolveu uma API de nome Lucene que tem como utilidade recuperar informaç�es em aplicaç�es de arquivos. Esta funcionalidade se d� atrav�s de um engine de pesquisa, que permite a indexaç�o de textos com alta performance. Isso torna poss�vel executar buscas de qualquer dado que possa ser transformado em texto. O recurso pode ser aplicado para, por exemplo, localizar palavras inclusive em documentos em PDF, que anteriormente foram transformados em textos e indexados pelo Lucene. Existe uma s�rie de aplicativos desktops e web que utilizam o Lucene como engine de pesquisa, como mostra a lista a seguir:

Eclipse IDE � www.eclipse.org

DocJar - http://www.docjar.com/

Jira - http://www.atlassian.com/software/jira/

CNET Reviews - http://reviews.cnet.com/

JGuru - http://www.jguru.com/

JDK Search - http://jdk.representqueens.com/

SourceForge - http://www.sourceforge.net/

Wikipedia - http://en.wikipedia.org/wiki/Lucene

O Lucene oferece suporte para outras linguagens al�m do Java: Lucene4C � C, CLucene � C++, �MUTIS � Delphi, Lucene.Net � C# .Net, Zend Framework � PHP e Ferret � Ruby. Para configurar o ambiente, acesse o site para fazer o download do Apache Lucene em http://www.apache.org/dyn/closer.cgi/lucene/java/. Vamos trabalhar com a vers�o 2.1 neste artigo. O nome do arquivo executado � lucene-2.1.0.zip. Veja abaixo sua estrutura de pastas:

A pasta contrib cont�m alguns recursos externos do Lucene, como Analysers para diversos idiomas, como veremos mais adiante, al�m de benchmarks, highlighter, entre outros. No entanto, o foco desta vez ser� o Analyser. Vale lembrar que a pasta docs cont�m a documentaç�o da API e a SRC o c�digo fonte da aplicaç�o de exemplo. Assim sendo, configure o classpath da sua aplicaç�o incluindo o arquivo lucene-core-2.1.0.jar.

Conferindo o funcionamento

A indexaç�o passa por um processo de an�lise do documento e, automaticamente, o converte para um texto simples. A extraç�o do texto � feita a partir de um Analyser, classe que cont�m as regras para a realizaç�o desse trabalho de retirada do conte�do. No entanto, � preciso saber que existem diversas implementaç�es da classe Analyser que realizam essa mesma funç�o. Optamos ent�o aqui o usa da BrazilianAnalyser que cont�m as stop_words da nossa l�ngua. No exemplo inicial estaremos utilizando o Analyser padr�o para facilitar o aprendizado.

Stop words s�o palavras irrelevantes para o nosso �ndice. Por isso, nada impede que voc� crie o seu Analyser com as suas pr�prias stop words. Veja alguns exemplos: "ambas", "ambos", "ano", "anos", "antes", "ao", "aonde", "aos", "apenas", "apos" etc.

O segundo passo ap�s a extraç�o do texto � organizar o �ndice, que pode ser acessado futuramente em pesquisa, de maneira pr�tica, j� que o Lucene disp�e de classes que definem a estrutura interna deste sum�rio a ser gerado.

Em definiç�o �s nomenclaturas do Lucene, a classe Document � uma unidade de indexaç�o e pesquisa que permite armazenar campos (Fields). Sobre a classe Field pode-se dizer que um field s� pode ser armazenado em um Document, pois possui um nome e um valor. N�o � poss�vel armazenar dois Fields com o mesmo nome em um documento. Mas um documento pode conter um ou mais Fields. A classe Directory � respons�vel por endereçar o �ndice. O armazenamento dos Documents � feito no Directory. Na ilustraç�o do fluxo do processo de indexaç�o no Lucene o processo fica mais claro:

Fluxograma do Processo de Indexaç�o

O IndexWriter � o respons�vel pela criaç�o do �ndice, ao qual, atrav�s desta classe, pode-se adicionar Documents. Enquanto isso, o IndexSearcher tem o papel de executar a busca no �ndice. Os crit�rios de busca s�o passados para a funç�o de busca do Searcher atrav�s do Objeto Query. Em seguida, o Objeto Query � constru�do atrav�s da TermQuery, para o qual passamos como par�metro o nome do campo a ser procurado e o valor que possivelmente ele cont�m.

�

Veja exemplo de Indexaç�o conforme c�digo abaixo:

�

package info.glaucioguerra.main;

�

import java.io.FileInputStream;

import java.io.FileReader;

import java.io.IOException;

�

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

�

public class Main {

�� public static void main(String[] args) {

�� Document document = new Document();

�� try {

�� FileInputStream arquivo = new FileInputStream("c:/arquivo.txt");

�� Directory directory = FSDirectory.getDirectory("c:/indice", true);

�� Analyzer analyzer = new StandardAnalyzer();

�� IndexWriter writer = new IndexWriter(directory, analyzer, true);

�� document.add(new Field("arquivo", "c:/arquivo.txt",Field.Store.YES, Field.Index.NO));

�� document.add(new Field("conteudo", new FileReader(arquivo.getFD())));

�� writer.addDocument(document);

�� writer.close();

arquivo.close();

�

�� } catch (IOException e) {

�� e.printStackTrace();

�� }

}

�

Na primeira linha do c�digo declara-se o Document que ser� armazenado no nosso �ndice. Carregamos o arquivo arquivo.txt pelo FileInputStream com o seguinte conte�do:

�

�JDK 6 with Java EE

Java EE provides web services, component-model, management, and communications APIs that make it the industry standard for implementing enterprise-class service-oriented architecture (SOA) and Web 2.0 applications.

�

Build native code with easy Java Native Interface (JNI) connections, or accelerate your Java development by leveraging DTrace, Containers, and ZFS. Get Sun's latest development platform with Sun Studio compilers and tools for C/C++/Fortran, NetBeans IDE, and the next-generation Solaris operating system all in the Solaris Express, Developer Edition.�

�

A escolha deste texto para indexaç�o foi feita porque estamos utilizando o Analyser padr�o do Lucene, que reconhece as stop word�s no idioma Ingl�s.

A classe Directory informa o diret�rio onde ser�o armazenados os arquivos do Lucene.� O par�metro �true� informa que um novo �ndice ser� criado, ou destru�do caso j� exista algum. Logo em seguida temos a classe Analyser, respons�vel pela extraç�o do texto, como j� mencionamos. A IndexWriter recebe como par�metro o Directory e o Analyser para efetuar a gravaç�o do �ndice.

�

A parte do c�digo que merece mais atenç�o � a criaç�o do Document e a organizaç�o de seus Fields. No nosso exemplo estamos criando dois Fields, um para armazenar o nome do arquivo e o outro para guardar o conte�do.

�

Analisando o trecho de c�digo:

document.add(new Field("arquivo", "c:/arquivo.txt",Field.Store.YES, Field.Index.NO));

�

No caso supracidado, adiciona-se um Field para o Document com o nome arquivo e o seu conte�do � o nome do arquivo do FileInputStream. O par�metro Field.Store.YES define que o Field deve ser armazenado no �ndice. J� o segundo par�metro define que o Field n�o deve ser indexado. Em outras palavras, o Field arquivo � armazenado no �ndice, mas n�o � um campo indexado, servindo somente para informar o nome do arquivo que foi indexado.

�

Analisando a criaç�o do segundo Field no Document:

document.add(new Field("conteudo", new FileReader(arquivo.getFD())));

�

O primeiro par�metro indica o nome do Field e o segundo um FileReader que fornece a leitura de uma cadeia de caracteres. Este Field ser� armazenado e indexado.

Ficamos por aqui com a primeira parte do artigo. At� o pr�ximo artigo!

Possibilitando alta performance na indexa��o com o Apache Lucene - Parte I

A Apache desenvolveu uma API de nome Lucene que tem como utilidade recuperar informações em aplicações de arquivos.

Artigos relacionados