redis - Redis 之上的 URL 过滤：Bloom 过滤器或 HyperLogLog 数据结构

Question

我想在 Redis 数据库之上为分布式爬虫系统实现 URL 过滤（例如，不要两次访问同一个 URL，所以我需要以某种方式以最小的内存指纹跟踪所有这些，不需要存储完整的URL，只需检查是否访问过某个特定的 URL）。在这种情况下，布隆过滤器听起来很合适，我看到了一个用于 Redis 的本机模块，用于实现布隆过滤器。但它也有内置的 HyperLogLog 数据结构，所以我想知道在我的场景中哪个是更好的选择。

score 1 · Accepted Answer

布隆过滤器与 HyperLogLog 完全不同。Bloom filter 用于检查是否存在重复项，而 HyperLogLog 用于不同计数。在您的情况下，您应该使用布隆过滤器。

另请参阅此问题以了解它们的差异。

redis - Redis 之上的 URL 过滤：Bloom 过滤器或 HyperLogLog 数据结构

1 回答 1

Related

Reference