[Top][All Lists]
[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[sdx-users] Réindexer des mots clés
From: |
Frédéric Glorieux |
Subject: |
[sdx-users] Réindexer des mots clés |
Date: |
Tue, 11 Mar 2003 11:10:46 +0100 |
> Bonjour,
>
> On étudie la possibilité de construire une solution documentaire
> globale autour de SDX; apparemment il remplit la plupart des
> critères, surtout grâce aux fonctions de thesaurus.
Flatté
> La fonction de panier de recherche sera également un plus, le
> cas échéant, mais quoi qu'il en soit elle ne sera pas
> spécialement difficile à développer à l'extérieur de SDX si
> nécessaire.
> Par contre, la brique manquante est l'enrichissement manuel
> des documents avant l'indexation, justement pour associer aux
> documents des mots-clé du thesaurus.
>
> SDX n'a certainement pas vocation à être un éditeur XML (et
> il en existe d'excellents gratuits); en revanche, on attend du
> système futur (à l'instar du système documentaire actuel) d'être
> capable, pour chaque nouveau document, d'effectuer une proposition
> de sur-indexation à partir d'une analyse statistique du corpus
> existant; en d'autres termes, le système doit pouvoir suggérer
> les mots du thesaurus qui conviendraient pour un document non-
> indexé, à partir des documents présents dans l'index (et qui ont
> fait l'objet d'une sur-indexation manuelle).
Nous n'avons pas trop le temps de chercher là-dessus mais peut-être que
cette petite idée peut suffire ?
- enregistrer votre thesaurus dans SDX, avec un seul mot racine.
- Tester une requête étendue avec ce mot (il faudra préciser de prendre
tous les enfants). Avec une requête de type <sdx:executeSimpleQuery
query="root" docs="true"/> SDX entourera chaque mot avec <sdx:hilite/>
(essayez de chercher "recherche" dans sdxtest, vous trouvez le mot
"search" hilité dans la doc SDX, il y a un pauvre thesaurus de
traduction)
- Il suffit avec une XSL de sortir <sdx:hilite no="n"/> avec un checkbox
coché par défaut.
- le lecteur décoche les indexations qui ne lui semblent pas pertinentes
- côté serveur vous reprenez la liste des numéros d'hilite sélectionnés.
Vous réindexez vos docs avec hilite, à travers une transformation qui
remplace les <sdx:hilite no="n"/> par la syntaxe de votre schéma
(<keyword/> ?), et à la condition que le no soit dans la liste reçue du
lecteur.
Je ne suis pas certain de m'être fait comprendre, mais peut-être cela
suffira-t-il à donner des idées