Analizator tekstu Lucene

org.eclipse.help.base.luceneAnalyzer

3.0 (punkt rozszerzenia początkowo dodany do wersji 2.0 jako org.eclipse.help.luceneAnalyzer)

Ten punkt rozszerzenia służy do rejestrowania analizatorów tekstu używanych w ramach pomocy podczas indeksowania i przeszukiwania dokumentów.

Pomoc korzysta z możliwości mechanizmu wyszukiwania Lucene, który pozwala indeksować strumienie elementów (strumienie słów). Analizatory tworzą elementy na bazie strumienia znaków. Badają treść tekstu i udostępniają elementy do użytku na potrzeby indeksu. Strumień tekstu można podzielić na elementy na wiele różnych sposobów. Prosty analizator może dzielić strumienie na elementy na podstawie spacji, inny może oferować filtrowanie elementów w zależności od potrzeb aplikacji. Ponieważ dokumentacja to przeważnie tekst przeznaczony do odczytu przez człowieka, zaleca się, aby analizatory używane przez system pomocy były w stanie przeprowadzić podział na elementy i normalizację indeksowanego tekstu z uwzględnieniem języka i gramatyki. W przypadku niektórych języków skuteczność wyszukiwania wzrasta znacząco, jeśli w indeksowanym tekście zostanie przeprowadzona analiza rdzeni i usunięcie symboli końcowych.

Analizator dodany do tego punktu rozszerzenia przesłoni analizator udostępniany przez system pomocy Eclipse dla określonych ustawień narodowych.

<!ELEMENT extension (analyzer*)>

<!ATTLIST extension

point CDATA #REQUIRED

id    CDATA #IMPLIED

name  CDATA #IMPLIED>


<!ELEMENT analyzer EMPTY>

<!ATTLIST analyzer

locale CDATA #REQUIRED

class  CDATA #REQUIRED>


Poniżej przedstawiono przykładową konfigurację analizatora Lucene:

 

<extension id=

"com.xyx.XYZ"

point=

"org.eclipse.help.base.luceneAnalyzer"

>

<analyzer locale=

"ll_CC"

class=

"com.xyz.ll_CCAnalyzer"

/>

</extension>

Wartość atrybutu locale musi reprezentować łańcuch ustawień narodowych składający się z pięciu lub dwóch znaków. Jeśli analizator jest skonfigurowany dla danego języka przy użyciu dwuliterowego oznaczenia, analizator ten będzie stosowany do wszystkich ustawień narodowych tego języka. Jeśli konfiguracja analizatora obejmuje oznaczenie składające się z pięciu znaków, zostaną użyte wskazane ustawienia narodowe.

Wartość atrybutu class musi przedstawiać klasę rozszerzającą klasę org.apache.lucene.analysis.Analyzer. Zaleca się, aby analizator przeprowadzał filtrowanie z użyciem małych liter w przypadku języków, w których jest możliwe zwiększenie liczby wyników wyszukiwania przez zastosowanie opcji rozróżniania wielkości liter.

System pomocy Eclipse udostępnia analizatory dla wszystkich języków. W przypadku języka angielskiego i niemieckiego analizatory przeprowadzają filtrowanie słów końcowych, zapisów z użyciem małych liter oraz analizę rdzeni. Analizatory dostarczane dla wszystkich pozostałych języków wykonują jedynie filtrowanie zapisów z użyciem małych liter.