1

我正在使用 OpenSearchServer(社区版)v1.2.4-rc3 - stable - rev 1474 - build 802。我爬取了一个 C# 和 C++ 编程网站。现在,当我搜索 C# 或 C++ 时,软件会去除特殊字符,例如 #,+。结果并不确切是哪个软件返回的。如何处理 OpenSearchServer / Lucene 中的特殊字符,如 (#)?有人可以建议我的想法吗?提前致谢

4

1 回答 1

1

您需要更改索引策略以使用自定义或半自定义标记器,以保留表示 C# 和 C++ 代码术语所需的特殊字符。您将在索引期间和搜索期间使用此标记器。

副手,我会看看org.apache.lucene.analysis.standardorg.apache.lucene.wikipedia.analysis以获得一些关于如何构造标记器(使用标记器(词法分析器)生成器,如 JFlex 等)的想法。可能需要而不是手动编码标记器)。

于 2012-04-17T20:56:04.360 回答