mysql - 分布式爬虫和一致性

Question

案例是我们有多个服务器（40+）同时抓取一个相同的 URL（以确保我们有最小的遗留）并将数据保存到数据库（MySQL）中。

现在的问题是：数据来回切换。例如，由于爬虫/数据库遗留问题，内容将在几秒钟内变为 A <-> B <-> A <-> B <-> A。

有什么好的方法可以预防吗？我们正在用 Perl 编写爬虫，但任何语言都适合我们，因为我们可以借用背后的想法。

任何提示将不胜感激。雷迪斯？零MQ？

谢谢

score 2 · Accepted Answer

2

于 2019-06-05T09:44:17.547 回答

1 回答 1