0

我正在使用 clucene 构建搜索索引,并且我想确保包含任何攻击性术语的文档永远不会被添加到索引中。使用带有停止列表的 StandardAnalyzer 还不够好,因为攻击性文档仍然会被添加,并且会被返回用于非攻击性搜索。

相反,我希望建立一个文档,然后检查它是否包含任何令人反感的词,然后仅在没有的情况下添加它。

干杯!

4

1 回答 1

0

您无法真正访问 Document 中的那种类型的数据

您可以做的是在文本上手动运行分析链并单独检查每个标记。您可以在一个愚蠢的循环中执行此操作,或者通过将另一个分析器添加到仅引发您稍后检查的标志的链中。

这引入了一些更多的工作,但实现该 IMO 的最佳方式。

于 2013-10-16T21:38:45.877 回答