Lucene SandBox - Vale a pena abrir esta caixa

14/03/2006 – 8:51

Para quem utiliza o Lucene como mecanismo de busca textual aí vai uma dica: existe uma seção no site chamada Lucene Sandbox que pode passar desapercebida por quem está iniciando no desenvolvimento com o Lucene.

Nesta seção existem várias classes e ferramentas valiosas e que o permitirão poupar de ter que reinventar a roda. Um detalhe interessante é que é disponilizado o código fonte e não apenas o arquivo compilado. Assim é possível conhecer a implementação e até contribuir para sua melhoria.

A lista de ferramentas e classes disponíveis é a seguinte:

  • Snowball Stemmers for Lucene
    • Stemmers baseados no Snowball
  • Analyzers, Tokenizers, and Filters
    • Analisadores para diversos idiomas, incluindo português brasileiro
  • Ant task
    • Task ANT para trabalhar com Lucene
  • Wordnet/Synonyms
    • Classe para utilização de sinônimos Wordnet em buscas
  • Lucli - Lucene Command-line Interface
    • Ferramenta de linha de comando
  • Term Highlighter
    • Destaque dos termos buscados
  • Javascript Query Constructor
    • Biblioteca javascript para construção de consultas. Suporta interface de usuário similar a página de busca avançada do Google
  • Javascript Query Validator
    • Validação por javascript da string de consulta antes de enviar a consulta para o servidor
  • High Frequency Terms
    • Analisa os termos mais frequentes de um índice

Dentre estas, destaco três classe muito interessantes aos brasileiros:

  • BrazilianStemmer.java
  • BrazilianTokenFilter.java
  • BrazilianAnalyzer.java

Com estas três classes é possível realizar a indexação de textos em português brasileiro sem se preocupar se serão devidamente tokenizados, se as stop words serão devidamente consideradas.

Foram desenvolvidas com base na versão alemã destas classes e funcionaram muito bem nos testes realizados por mim.

Para acessar as classes específicas para o português do Brasil:

http://svn.apache.org/repos/asf/lucene/java/trunk/contrib/analyzers/src/java/org/apache/lucene/analysis/br/

Para saber mais sobre o Lucene SandBox:

http://lucene.apache.org/java/docs/lucene-sandbox/

Página oficial do Lucene:

http://lucene.apache.org

  1. 2 Responses to “Lucene SandBox - Vale a pena abrir esta caixa”

  2. olha onde eu fui achar coisas sobre lucene hehehehe :P

    By foka on Oct 3, 2007

  3. Hi.
    Good design, who make it?

    By naisioxerloro on Nov 28, 2007

Post a Comment