Традиционное японское, корейское, тайское или китайское письмо не предусматривает размещение между словами фразы символов-разделителей, аналогичных пробелу, используемому, например, в европейских языках. Поэтому при индексировании текстов на этих языках необходимо дополнительно производить разбиение фраз на отдельные слова.
Для разбиения на слова фраз японского языка используется система морфологического анализа японского языка ChaSen или морфологический анализатор японского языка MeCab. Поэтому её необходимо установить одну из этих систем до начала сборки и установки DataparkSearch.
Для включения поддержки разбиения фраз японского языка, вам необходимо указать для configure ключ --enable-chasen или --enable-mecab.
Для разбиения на слова фраз китайского языка используется частотный словарь китайского языка, а разбиение производится методом динамического программирования чтобы суммарная частота использования всех получаемых слов после разбиения была максимальной.
Для включения поддержки сегментера фраз на китайском языке, необходимо при сборке DataparkSearch включить поддержку кодировки GB2312, если будет использоваться словарь упрощенного китайского mandarin.freq, или кодировки Big5, если будет использоваться словарь традиционного китайского TraditionalChinese.freq, а также указать в indexer.conf при помощи команды LoadChineseList частотный словарь слов китайского языка для загрузки.
LoadChineseList [charset dictionaryfilename]
По умолчанию используется кодировка GB2312 и словарь mandarin.freq. Вы можете использовать свой собственный словарь в своей кодировке. Нужно только включить поддержку этой кодировки и указать кодировку и словаь в качестве параметров команды LoadChineseList
Замечание: Вам необходимо скачать частнотные словари с нашего сайта или с одного из зеркал, см. Разд. 1.2.
Для разбиения на слова фраз тайского языка используется тот же метод, что и для китайского языка, оличие заключается в использовании частотного словаря тайского языка.
Для включения поддержки сегментера фраз на тайском языке, необходимо указать в indexer.conf при помощи команды LoadThaiList частотный словарь слов тайского языка для загрузки.
LoadThaiList [charset dictionaryfilename]
По умолчанию используется кодировка tis-620 и словарь thai.freq. Вы можете использовать свой собственный словарь в своей кодировке. Нужно только включить поддержку этой кодировки и указать кодировку и словаь в качестве параметров команды LoadThaiList
Замечание: Вам необходимо скачать частнотные словари с нашего сайта или с одного из зеркал, см. Разд. 1.2.
Для разбиения на слова фраз корейского языка используется тот же метод, что и для китайского языка, оличие заключается в использовании частотного словаря корейского языка.
Для включения поддержки сегментера фраз на корейском языке, необходимо указать в indexer.conf при помощи команды LoadKoreanList частотный словарь слов корейского языка для загрузки.
LoadKoreanList [charset dictionaryfilename]
По умолчанию используется кодировка euc-kr и словарь korean.freq. Вы можете использовать свой собственный словарь в своей кодировке. Нужно только включить поддержку этой кодировки и указать кодировку и словаь в качестве параметров команды LoadKoreanList
Замечание: Вам необходимо скачать частнотные словари с нашего сайта или с одного из зеркал, см. Разд. 1.2.
Пред. | Начало | След. |
Создание многоязычных страниц поиска | Уровень выше | Поддержка мультиязычных веб серверов |