Lucene Analyzer

ID: org.eclipse.help.luceneAnalyzer

説明: この拡張ポイントは、ドキュメンテーションを索引付けおよび検索するときに、 ヘルプが使用するテキスト・アナライザーを登録するために使用します。

ヘルプは、Lucene 検索エンジンの機能を活用し、トークン・ストリーム (ワードのストリーム) の索引付けを行うことができます。 アナライザーは、文字ストリームからトークンを作成します。アナライザーはテキストの内容を検査し、索引に使用するトークンを提供します。 テキスト・ストリームは、多くの固有の方法でトークン化することができます。普通のアナライザーではストリームを空白文字でトークン化できますが、 別のアナライザーではアプリケーションの必要性に基づいて、トークンのフィルター操作を実行できます。 文書の大部分は人間が判読可能なテキストであるため、ヘルプ・システムが使用するアナライザーには、 言語と文法を認識したトークン化、および索引付きテキストの正規化を実行することが望まれます。 言語によっては、索引付きテキストで停止ワードの除去とステミングを実行すると、 検索の質が非常に向上するものもあります。

この拡張ポイントに提供されるアナライザーは、Eclipse ヘルプ・システムが指定されたロケールに提供するアナライザーをオーバーライドします。

構成マークアップ:

   <!ELEMENT extension (analyzer*)>

   <!ATTLIST extension
     point CDATA #REQUIRED
     id    CDATA #IMPLIED
     name  CDATA #IMPLIED
   >

   <!ELEMENT analyzer EMPTY>

   <!ATTLIST analyzer
     locale CDATA #REQUIRED
     class  CDATA #REQUIRED
   >

例: Lucene Analyzer 構成の例を以下に示します。

 <extension id="com.xyx.XYZ" point="org.eclipse.help.luceneAnalyzer">
  <analyzer locale="ll_CC" class="com.xyz.ll_CCAnalyzer"/>
</extension>

API 情報: locale 属性の値は、5 文字または 2 文字のロケール・ストリングを表す必要があります。 アナライザーが 2 文字の言語指定を行うことで言語について構成される場合、 アナライザーはこの言語のすべてのロケールに対して使用されることになります。アナライザーが 5 文字のロケールと一致するように構成される場合、代わりにそれが使用されることになります。

class 属性の値は、org.apache.lucene.analysis.Analyzer を拡張するクラスを表す必要があります。 大文字小文字を区別して検索を行なうと検索ヒット数を増加させることはできますが、このアナライザーに 小文字フィルターを実行させることを推奨します。

提供されるインプリメンテーション: Eclipse ヘルプ・システムはすべての言語用のアナライザーを提供しています。 英語およびドイツ語の場合、アナライザーはストップ・ワード・フィルター、小文字フィルターおよびステミングを実行します。 その他のすべての言語の場合、提供されるアナライザーは小文字フィルターのみを実行します。

Copyright (c) 2000, 2003 IBM Corporation and others.
All rights reserved. This program and the accompanying materials are made available under the terms of the Common Public License v1.0 which accompanies this distribution, and is available at http://www.eclipse.org/legal/cpl-v10.html