[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[sdx-developers] Conservation des nombres dans la recherche plein-texte
From: |
Pierre Dittgen |
Subject: |
[sdx-developers] Conservation des nombres dans la recherche plein-texte |
Date: |
Tue, 13 Apr 2004 18:05:35 +0200 |
User-agent: |
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.5) Gecko/20031007 |
Bonjour,
Merci à Pierrick et à Rasik pour leur soutien technique. Les
modifications que j'ai apporté aux analyseurs permettent maintenant à
une application SDX de rechercher aussi sur les nombres contenus dans
des textes indexés.
Cette extension de la fonctionnalité est, à mon sens, générique. Ce
serait intéressant de l'intégrer à SDX (c'est du moins mon souhait).
Elle consiste en 2 classes supplémentaires : LetterOrDigitTokenizer et
LaxistLowerCaseTokenizer dans le package
fr.gouv.culture.sdx.search.lucene.analysis.tokenizer.
et en la modification des classes DefaultAnalyser, Analyser_fr,
Analyser_cz, Analyser_br pour l'utilisation de LetterOrDigitTokenizer
plutôt que StandardTokenizer et LaxistLowerCaseTokenizer plutôt que
LowerCaseTokenizer.
Cette modification s'applique à l'analyseur par défaut et aux analyseurs :
- anglais (car simple dérivation de l'analyseur par défaut)
- tchèque (modifié)
- français (modifié)
- brésilien (modifié)
mais pas :
- russe (car la classe d'analyse est dans Lucene)
- allemand (même raison)
Note 1 : le "tokenizer" chinois prenait apparemment déjà en compte les
chiffres/nombres dans son indexation.
Note 2 : le "tokenizer" arabe de Pierrick compte gérer les nombres (ça
fait l'objet d'un TODO dans le code)
Note 3 : pour le "tokenizer" allemand, il suffirait de remplacer
l'utilisation de StandardTokenizer par LetterOrDigitTokenizer dans la
classe GermanAnalyser. Mais il faudrait alors déplacer la classe
LetterOrDigitTokenizer dans le code de Lucene...
Note 4 : Pour le "tokenizer" russe, c'est un test à modifier dans la
méthode isTokenChar() de la classe RussianLetterTokenizer.
Voilà, je tiens à disposition les sources modifiés et donnerai un coup
de main à toute personne souhaitant faire l'intégration.
Bonne soirée
Pierre
--
Pierre Dittgen, address@hidden
PASS Technologie http://www.pass-tech.fr
- [sdx-developers] Conservation des nombres dans la recherche plein-texte,
Pierre Dittgen <=