我想在 Redis 数据库之上为分布式爬虫系统实现 URL 过滤(例如,不要两次访问同一个 URL,所以我需要以某种方式以最小的内存指纹跟踪所有这些,不需要存储完整的URL,只需检查是否访问过某个特定的 URL)。在这种情况下,布隆过滤器听起来很合适,我看到了一个用于 Redis 的本机模块,用于实现布隆过滤器。但它也有内置的 HyperLogLog 数据结构,所以我想知道在我的场景中哪个是更好的选择。
问问题
381 次
1 回答
1
布隆过滤器与 HyperLogLog 完全不同。Bloom filter 用于检查是否存在重复项,而 HyperLogLog 用于不同计数。在您的情况下,您应该使用布隆过滤器。
另请参阅此问题以了解它们的差异。
于 2019-02-24T15:31:46.407 回答