4

我使用 Zend Lucene 来索引瑞典语文本。问题是 lucene 用瑞典字符 åäö 标记单词。例如,单词“världens”在索引中变成了两个单词“v”和“ldens”。

有没有办法添加 zend lucene 应该接受而不是标记的字符?

4

2 回答 2

5

使用UTF-8 兼容的文本分析器而不是默认的文本分析器进行标记化。请注意,这需要使用 UTF-8 支持编译 PHP 的PCRE(Perl 兼容的正则表达式)库(如果您使用与 PHP 捆绑在一起的 PCRE 库,则默认设置,但如果您使用共享库,则可能不启用)。对于 UTF-8 兼容分析器的不区分大小写版本,您还需要启用 mbstring 扩展。

于 2009-12-30T14:36:27.727 回答
2

使用分析仪。请参阅有关使用 utf8 进行文本分析的文档和有关编写您自己的分析器的文档。我建议您只使用 UTF-8 分析器。

于 2009-12-30T14:35:30.393 回答