Lucene SandBox – Vale a pena abrir esta caixa
Para quem utiliza o Lucene como mecanismo de busca textual aí vai uma dica: existe uma seção no site chamada Lucene Sandbox que pode passar desapercebida por quem está iniciando no desenvolvimento com o Lucene.
Nesta seção existem várias classes e ferramentas valiosas e que o permitirão poupar de ter que reinventar a roda. Um detalhe interessante é que é disponilizado o código fonte e não apenas o arquivo compilado. Assim é possível conhecer a implementação e até contribuir para sua melhoria.
A lista de ferramentas e classes disponíveis é a seguinte:
- Snowball Stemmers for Lucene
- Stemmers baseados no Snowball
- Analyzers, Tokenizers, and Filters
- Analisadores para diversos idiomas, incluindo português brasileiro
- Ant task
- Task ANT para trabalhar com Lucene
- Wordnet/Synonyms
- Classe para utilização de sinônimos Wordnet em buscas
- Lucli – Lucene Command-line Interface
- Ferramenta de linha de comando
- Term Highlighter
- Destaque dos termos buscados
- Javascript Query Constructor
- Biblioteca javascript para construção de consultas. Suporta interface de usuário similar a página de busca avançada do Google
- Javascript Query Validator
- Validação por javascript da string de consulta antes de enviar a consulta para o servidor
- High Frequency Terms
- Analisa os termos mais frequentes de um índice
Dentre estas, destaco três classe muito interessantes aos brasileiros:
- BrazilianStemmer.java
- BrazilianTokenFilter.java
- BrazilianAnalyzer.java
Com estas três classes é possível realizar a indexação de textos em português brasileiro sem se preocupar se serão devidamente tokenizados, se as stop words serão devidamente consideradas.
Foram desenvolvidas com base na versão alemã destas classes e funcionaram muito bem nos testes realizados por mim.
Para acessar as classes específicas para o português do Brasil:
Para saber mais sobre o Lucene SandBox:
http://lucene.apache.org/java/docs/lucene-sandbox/
Página oficial do Lucene:
Related posts:

Hi.
Good design, who make it?
olha onde eu fui achar coisas sobre lucene hehehehe