Справочная система работает на основе поискового сервера Lucene, позволяющего индексировать маркированные потоки (потоки слов). Анализаторы создают маркеры из символьного потока. Они просматривают текстовое содержимое и предоставляют маркеры, предназначенные для использования в индексе. Снабдить текстовый поток маркерами можно многими различными способами. Простейший анализатор маркирует потоки по пробелам, более сложный может фильтровать маркеры в зависимости от потребностей приложений. Поскольку большая часть документации - это обычный текст, предназначенный для чтения пользователями, желательно, чтобы анализаторы, применяемые справочной системой, выполняли маркировку и нормировку индексированного текста с учетом его языковых и грамматических особенностей. Для некоторых языков качество поиска значительно возрастает после удаления общеупотребительных слов и выделения основ в индексированном тексте.
Анализатор, добавляемый в этой точке расширения, переопределяет тот, который предоставляется справочной системой Eclipse для заданной локали.
<!ELEMENT extension (analyzer*)>
<!ATTLIST extension
point CDATA #REQUIRED
id CDATA #IMPLIED
name CDATA #IMPLIED>
<!ELEMENT analyzer EMPTY>
<!ATTLIST analyzer
locale CDATA #REQUIRED
class CDATA #REQUIRED>
<extension id=
"com.xyx.XYZ"
point=
"org.eclipse.help.base.luceneAnalyzer"
>
<analyzer locale=
"ll_CC"
class=
"com.xyz.ll_CCAnalyzer"
/>
</extension>
Значение атрибута class должно представлять класс, расширяющий org.apache.lucene.analysis.Analyzer. Рекомендуется, чтобы этот анализатор выполнял фильтрацию строчных букв в языках, в которых можно увеличить число обнаруживаемых соответствий при поиске, выполняя поиск с учетом регистра.
Copyright (c) 2000, 2003 IBM Corporation and others.
Все права защищены. Эта программа и сопутствующие материалы распространяются на условиях Eclipse Public License v1.0, поставляемой вместе с продуктом и доступной на Web-сайте
http://www.eclipse.org/legal/epl-v10.html