Analyzátor Lucene

org.eclipse.help.base.luceneAnalyzer

3.0 (původně přidán ve verzi 2.0 jako org.eclipse.help.luceneAnalyzer)

Tento bod rozšíření se používá k registraci textových analyzátorů pro použití systémem nápovědy při indexování a prohledávání dokumentace.

Nápověda využívá možnosti vyhledávače Lucene, který umožňuje indexování toků tokenů (toků slov). Analyzátory vytvářejí tokeny z toku znaků. Zkoumají obsah textu a poskytují tokeny pro použití s indexem. Textový tok lze tokenizovat mnoha jedinečnými způsoby. Triviální analyzátor může tokenizovat toky u každé mezery, jiný může provádět filtrování tokenů na základě potřeb dané aplikace. Protože dokumentaci tvoří většinou pro člověka čitelný text, požaduje se, aby analyzátory používané systémem nápovědy prováděly tokenizaci a normalizaci indexovaného textu s ohledem na daný jazyk a gramatiku. U některých jazyků se kvalita vyhledávání podstatně zvýší, pokud se nad indexovaným textem provede odebrání ukončovacích slov a rozbor.

Analyzátor přidaný k tomuto bodu rozšíření potlačí analyzátor poskytovaný pro dané národní prostředí systémem nápovědy Eclipse.

<!ELEMENT extension (analyzer*)>

<!ATTLIST extension

point CDATA #REQUIRED

id    CDATA #IMPLIED

name  CDATA #IMPLIED>


<!ELEMENT analyzer EMPTY>

<!ATTLIST analyzer

locale CDATA #REQUIRED

class  CDATA #REQUIRED>


Následuje příklad konfigurace analyzátoru Lucene Analyzer:

 

<extension id=

"com.xyx.XYZ"

point=

"org.eclipse.help.base.luceneAnalyzer"

>

<analyzer locale=

"ll_CC"

class=

"com.xyz.ll_CCAnalyzer"

/>

</extension>

Hodnota atributu locale musí být řetězec národního prostředí o délce dva nebo pět znaků. Pokud je analyzátor konfigurován pro jazyk stanovením dvoupísmenného určení jazyka, bude analyzátor použit pro všechna národní prostředí daného jazyka. Pokud je konfigurován analyzátor odpovídající národnímu prostředí o pěti znacích, bude použit místo něj.

Hodnota atributu class musí představovat třídu, která rozšiřuje org.apache.lucene.analysis.Analyzer. Doporučuje se, aby tento analyzátor prováděl filtrování malých písmen pro jazyky, kde je možné zvýšit počet nalezených výskytů, jestliže se provádí vyhledávání s rozlišením malých a velkých písmen.

Systém nápovědy Eclipse nabízí analyzátory pro všechny jazyky. Pro angličtinu a němčinu tyto analyzátory provádějí filtrování ukončovacích slov, filtrování malých písmen a rozbor. Pro všechny ostatní jazyky provádí dodávaný analyzátor pouze filtrování malých písmen.