clucene - 防止某些文档在 clucene 中被索引

Question

我正在使用 clucene 构建搜索索引，并且我想确保包含任何攻击性术语的文档永远不会被添加到索引中。使用带有停止列表的 StandardAnalyzer 还不够好，因为攻击性文档仍然会被添加，并且会被返回用于非攻击性搜索。

相反，我希望建立一个文档，然后检查它是否包含任何令人反感的词，然后仅在没有的情况下添加它。

干杯!

score 0 · Accepted Answer

您无法真正访问 Document 中的那种类型的数据

您可以做的是在文本上手动运行分析链并单独检查每个标记。您可以在一个愚蠢的循环中执行此操作，或者通过将另一个分析器添加到仅引发您稍后检查的标志的链中。

这引入了一些更多的工作，但实现该 IMO 的最佳方式。

1 回答 1