Página Inicial > Desenvolvimento, Java, Text Analysis > Lucene SandBox – Vale a pena abrir esta caixa

Lucene SandBox – Vale a pena abrir esta caixa

Para quem utiliza o Lucene como mecanismo de busca textual aí vai uma dica: existe uma seção no site chamada Lucene Sandbox que pode passar desapercebida por quem está iniciando no desenvolvimento com o Lucene.

Nesta seção existem várias classes e ferramentas valiosas e que o permitirão poupar de ter que reinventar a roda. Um detalhe interessante é que é disponilizado o código fonte e não apenas o arquivo compilado. Assim é possível conhecer a implementação e até contribuir para sua melhoria.

A lista de ferramentas e classes disponíveis é a seguinte:

  • Snowball Stemmers for Lucene
    • Stemmers baseados no Snowball
  • Analyzers, Tokenizers, and Filters
    • Analisadores para diversos idiomas, incluindo português brasileiro
  • Ant task
    • Task ANT para trabalhar com Lucene
  • Wordnet/Synonyms
    • Classe para utilização de sinônimos Wordnet em buscas
  • Lucli – Lucene Command-line Interface
    • Ferramenta de linha de comando
  • Term Highlighter
    • Destaque dos termos buscados
  • Javascript Query Constructor
    • Biblioteca javascript para construção de consultas. Suporta interface de usuário similar a página de busca avançada do Google
  • Javascript Query Validator
    • Validação por javascript da string de consulta antes de enviar a consulta para o servidor
  • High Frequency Terms
    • Analisa os termos mais frequentes de um índice

Dentre estas, destaco três classe muito interessantes aos brasileiros:

  • BrazilianStemmer.java
  • BrazilianTokenFilter.java
  • BrazilianAnalyzer.java

Com estas três classes é possível realizar a indexação de textos em português brasileiro sem se preocupar se serão devidamente tokenizados, se as stop words serão devidamente consideradas.

Foram desenvolvidas com base na versão alemã destas classes e funcionaram muito bem nos testes realizados por mim.

Para acessar as classes específicas para o português do Brasil:

http://svn.apache.org/repos/asf/lucene/java/trunk/contrib/analyzers/src/java/org/apache/lucene/analysis/br/

Para saber mais sobre o Lucene SandBox:

http://lucene.apache.org/java/docs/lucene-sandbox/

Página oficial do Lucene:

http://lucene.apache.org

Related posts:

  1. Sun anuncia exames de certificação Java em português
Categories: Desenvolvimento, Java, Text Analysis Tags:
  1. naisioxerloro
    28, novembro, 2007 em 16:35 | #1

    Hi.
    Good design, who make it?

  2. foka
    3, outubro, 2007 em 21:55 | #2

    olha onde eu fui achar coisas sobre lucene hehehehe :P

  1. Nenhum trackback ainda.