0

我看到 Stormcrawler 尚不支持文档重复数据删除。这是未来的计划吗?我之所以这么问,是因为我看到可以在状态核心中添加签名元数据,并且可以用于在索引之前删除具有相同签名值的重复项。如果我在正确的方向思考,只是一个想法?

谢谢,

苏曼

4

1 回答 1

0

MD5SignatureParseFilter根据文档的内容计算签名。这用于 AdaptiveScheduling 以确定文档是否已更改。您可以将相同的元数据索引到 SOLR 中以进行重复数据删除,例如将其用作文档的主键。由于 StormCrawler 孤立地查看每个文档,因此很难像 Nutch 处理 MapReduce 那样对重复项采取行动。一种选择是让一个外部进程将重复项直接解析到索引后端(例如 SOLR),但这将在 StormCrawler 之外并且依赖于后端。

简而言之,如果您可以使用哈希作为 dedup 的主键,那么您已经拥有了您需要的所有元素,但这可能是 StormCrawler 所能做到的。

我看到 Stormcrawler 尚不支持文档重复数据删除。

你在哪里看到的?

于 2018-03-22T07:44:52.533 回答