Analyseur Lucene

Identificateur : org.eclipse.help.luceneAnalyzer

Description : ce point d'extension est utilisé pour enregistrer des analyseurs de texte pour l'aide lors de l'indexation et de la recherche de documentation.

Le système d'aide a recours à des capacités du moteur de recherche Lucene, ce qui permet d'indexer des flux de sèmes (mots). Les analyseurs créent des sèmes pour à partir du flux de caractères. Ils analysent le contenu et fournissent des jetons à utiliser avec l'index. Il est possible de segmenter le flux de texte en plusieurs sèmes. Un analyseur simple peut segmenter des flux où il y a des espaces, un autre peut filtrer les sèmes en fonction des besoins de l'application. La documentation étant conçue pour être lue, les analyseurs utilisés par le système d'aide doivent effectuer une segmentation linguistique et grammaticale du texte indexé. Pour certaines langues, la qualité de la recherche augmente de façon notable dans le cas de la suppression de mots types et de lemmisation.

L'analyseur de ce point d'extension remplace celui du système d'aide Eclipse d'un environnement local donné.

Marques de configuration :

   <!ELEMENT extension (analyzer*)>

   <!ATTLIST extension
     point CDATA #REQUIRED
     id    CDATA #IMPLIED
     name  CDATA #IMPLIED
   >

   <!ELEMENT analyzer EMPTY>

   <!ATTLIST analyzer
     locale CDATA #REQUIRED
     class  CDATA #REQUIRED
   >

Exemples : L'exemple suivant illustre une configuration de l'analyseur Lucene :

 <extension id="com.xyx.XYZ" point="org.eclipse.help.luceneAnalyzer">
  <analyzer locale="ll_CC" class="com.xyz.ll_CCAnalyzer"/>
 </extension>

Informations d'API : la valeur de l'attribut locale doit correspondre à une chaîne de deux ou cinq caractères. Si l'analyseur est configuré pour une langue avec un code de deux lettres, il sera utilisé pour tous les environnements locaux de cette langue. S'il s'agit d'un code de cinq caractères, l'analyseur sera utilisé à la place.

La valeur de l'attribut class doit désigner une classe qui étend org.apache.lucene.analysis.Analyzer. Il est préférable que cet analyseur effectue un tri en minuscules pour les langues dont les résultats de recherche peuvent être améliorés en ne différenciant pas les majuscules des minuscules.

Implémentation fournie : Le système d'aide Eclipse fournit des analyseurs pour toutes les langues. Pour l'anglais et l'allemand, les analyseurs filtrent les mots types et les minuscules et effectuent une lemmisation. Les analyseurs de toutes les autres langues filtrent simplement les minuscules.

Copyright (c) 2000, 2003 IBM Corporation and others.
All rights reserved. Ce programme et les produits qui l'accompagnent sont fournis sous licence v1.0 associée à cette distribution et disponibles à l'adresse suivante : http://www.eclipse.org/legal/cpl-v10.html