sdx-users
[Top][All Lists]
Advanced

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

RE : [sdx-users] configuration , indexation de document XML (+ struts)


From: Martin Sevigny
Subject: RE : [sdx-users] configuration , indexation de document XML (+ struts)
Date: Mon, 28 Apr 2003 07:51:21 +0200

Bonjour,

> 1- je voudrais indexer des documents XML dans le framework struts
> pensez vous qu'il soit facile d'integrer SDX dans ce framework ?
> est ce que cela a déjà été fait ?

Je ne sais pas. Peut-être explorer les relations Cocoon/Struts? SDX est
d'abord et avant tout Cocoon.

> - Dans lucene, on peut indexer avec la methode 
> Fied.setBoost(float) pour 
> booster l'importance de ce champs dans le scoring global. En 
> est il de meme 
> avec SDX .. y' a til un mecanisme de configuration de 
> l'importance d'un 
> champs par rapport à un autre avec les documentBases

Pour l'instant non, mais ce sera facile à implanter, soit dans le
application.xconf//sdx:field ou directement lors de l'indexation avec,
par exemple, un sdx:field/@lucene-boost.

> - quelle classe Analyser est utiliser dans SDX ?

Celle que vous voulez... Dans application.xconf, vous pouvez choisir
soit directement une classe (sdx:field/@analyzerClass), soit
indirectement en spécifiant une langue et un code de pays (@xml:lang),
voire une variante (sdx:field/@variant). Les valeurs par défaut pour une
base peuvent être dans sdx:fieldList, sdx:documentBase, etc. SDX
choisira la bonne classe parmi les langues qu'il supporte.

> - un stopFilter est il utilisé(ou est la liste des mots ?),

La liste des mots est, contrairement à Lucene, dans un fichier
extérieur, qu'on peut spécififer ainsi sdx:field/@analyzerConf='url du
fichier XML de configuration'. Voire sdx.war/sdx/conf/analysis/*.xml
pour des exemples.

> - Utilisez vous un Stemmer francais?

Non.

> - Comment gerer dans SDX les 3 storable,indexable, 
> tokenalizable pour mieux 
> configurer un champs ?

Dans application.xconf, les sdx:field/@type le font :

 type="field" => pas tokenisé
 type="word" => tokenisé
 type="unindexed" => pas indexé

Si vous mettez brief="true", alors il est "storable" comme vous dites,
sinon il ne l'est pas.

A bientôt,

Martin Sévigny





reply via email to

[Prev in Thread] Current Thread [Next in Thread]