我在谷歌搜索但没有找到任何与在 Xapian 中实现分析器相关的线索,甚至 Xapian 可能不支持使用像 lucene 这样的分析器。换句话说,我无法扩展到支持中文。我对吗?
我在 Xapian C++ API 中搜索,只找到可能与提取词有关的TermGenerator 。有一个flag FLAG_CJK_NGRAM
,它可以分割UTF-8 CJK单词,比如说ABCD,它会分割成AB、BC、CD和A、B、C、D。这很简单直接。我想我需要一个更准确的解决方案,看来我需要实施或将成熟的解决方案(如jieba)迁移到 Xapian。我对吗?