Lucene elemző

org.eclipse.help.base.luceneAnalyzer

3.0 (eredetileg org.eclipse.help.luceneAnalyzer néven került felvételre a 2.0 kiadásban)

Ez a kiterjesztési pont szövegelemzők regisztrálását teszi lehetővé, amelyket a súgó használ dokumentációk indexelése és keresés során.

A súgó kiaknázza a Lucene keresőmotor képességeit, vagyis hogy képes indexelni a tokenfolyamokat (szófolyamokat). Az elemzők a karakterfolyamból jelsorokat hoznak létre. A szöveg tartalmát vizsgálják, és jelsorokat biztosítanak az indexhez. A szövegfolyam számos egyedi módon alakítható jelsorozattá. Egy triviális elemző képes a szóközszerű karaktereknél felvágni tokenekre a folyamokat, egy másik pedig képes lehet elvégezni a tokenek szűrését az alkalmazás igényeinek megfelelően. Mivel a dokumentáció jellemzően értelemmel bíró szöveg, kívánatos, hogy a súgórendszer által használt elemzők az indexelt szöveg nyelv- és nyelvtan-tudatos tokenizálását és normalizálását végezzék el. Bizonyos nyelvek esetén a keresés minősége lényegesen megjavul, ha a stopszavak törlése és a szótőképzés az indexelt szövegen történik meg.

Az e kiterjesztési ponthoz adott elemző újradefiniálja az Eclipse súgórendszer által biztosítottat egy adott területi beállításhoz.

<!ELEMENT extension (analyzer*)>

<!ATTLIST extension

point CDATA #REQUIRED

id    CDATA #IMPLIED

name  CDATA #IMPLIED>


<!ELEMENT analyzer EMPTY>

<!ATTLIST analyzer

locale CDATA #REQUIRED

class  CDATA #REQUIRED>


Az alábbi példa a Lucene elemző egy beállítását mutatja be:

 

<extension id=

"com.xyx.XYZ"

point=

"org.eclipse.help.base.luceneAnalyzer"

>

<analyzer locale=

"ll_CC"

class=

"com.xyz.ll_CCAnalyzer"

/>

</extension>

A locale attribútum értéke egy kettő vagy öt hosszú karaktersorozat. Ha az elemző két betűs nyelvmegjelöléssel van egy adott nyelvre beállítva, akkor a nyelvhez tartozó valamennyi területi beállításon ez az elemző kerül használatra. Ha az elemző úgy van beállítva, hogy egy ötkarakteres területi beállításnak felel meg, akkor az kerül használatra.

A class attribútum értéke az org.apache.lucene.analysis.Analyzer kiterjesztét végző osztály. Előnyös lehet, ha az elemző kisbetűs szűrést végez olyan nyelvek esetén, amelyeknél a keresés során a kis- és nagybetűk megkülönböztetésének beállításával növelhető a találatok száma.

Az Eclipse súgórendszer valamennyi nyelvhez biztosít elemzőket. Angol és német nyelvek esetében az elemzők stopszavak szűrését, kisbetűs szűrést, valamint szótőképzést hajtanak végre. Az össze többi nyelv esetében a mellékelt elemző csak kisbetűs szűrést hajt végre.