Lucene Analyzer

org.eclipse.help.base.luceneAnalyzer

3.0 (リリース 2.0 では org.eclipse.help.luceneAnalyzer として追加)

この拡張ポイントは、文書を索引付けおよび検索するときに、ヘルプが使用するテキスト・アナライザーを登録するために使用します。

ヘルプは、Lucene 検索エンジンの機能を活用し、トークン・ストリーム (ワードのストリーム) の索引付けを行うことができます。 アナライザーは、文字ストリームからトークンを作成します。アナライザーはテキストの内容を検査し、索引に使用するトークンを提供します。 テキスト・ストリームは、多くの固有の方法でトークン化することができます。普通のアナライザーではストリームを空白文字でトークン化できますが、 別のアナライザーではアプリケーションの必要性に基づいて、トークンのフィルタリングを実行できます。 文書の大部分は人間が判読可能なテキストであるため、ヘルプ・システムが使用するアナライザーには、 言語と文法を認識したトークン化、および索引付きテキストの正規化を実行することが望まれます。 言語によっては、索引付きテキストで停止ワードの除去とステミングを実行すると、 検索の質が非常に向上するものもあります。

この拡張ポイントに提供されるアナライザーは、Eclipse ヘルプ・システムが指定されたロケールに提供するアナライザーをオーバーライドします。

<!ELEMENT extension (analyzer*)>

<!ATTLIST extension

point CDATA #REQUIRED

id    CDATA #IMPLIED

name  CDATA #IMPLIED>


<!ELEMENT analyzer EMPTY>

<!ATTLIST analyzer

locale CDATA #REQUIRED

class  CDATA #REQUIRED>


Lucene Analyzer 構成の例を次に示します。

 

<extension id=

"com.xyx.XYZ"

point=

"org.eclipse.help.base.luceneAnalyzer"

>

<analyzer locale=

"ll_CC"

class=

"com.xyz.ll_CCAnalyzer"

/>

</extension>

locale 属性の値は、5 文字または 2 文字のロケール・ストリングを表す必要があります。 アナライザーが 2 文字の言語指定を行うことで言語について構成される場合、 アナライザーはこの言語のすべてのロケールに対して使用されることになります。アナライザーが 5 文字のロケールと一致するように構成される場合、代わりにそれが使用されることになります。

class 属性の値は、org.apache.lucene.analysis.Analyzer を拡張するクラスを表す必要があります。 大/小文字を区別して検索を行うと検索ヒット・カウントを増加させることはできますが、このアナライザーに 小文字フィルターを実行させることを推奨します。

Eclipse ヘルプ・システムはすべての言語用のアナライザーを提供しています。 英語およびドイツ語の場合、アナライザーはストップ・ワード・フィルター、小文字フィルターおよびステミングを実行します。 その他のすべての言語の場合、提供されるアナライザーは小文字フィルターのみを実行します。