0

朋友们,我已经用 Java 实现了一个多线程的 Web Crawler。为了提高效率,我想将其转换为分布式架构,即在 3 台机器上。据我搜索主从架构是最好的。谁能提供一些关于哪个是最好的架构以及我如何在 Java 中实现它的见解?

4

1 回答 1

0

您可以为每个被抓取的域计算哈希码,并使用此哈希来确定哪个节点应该抓取该域。这样,所有节点都可以并行工作而无需太多交互。

您还需要一些代码在爬取完成后或定期合并爬取结果。可能最好只从节点复制一些生成的档案并在中央位置处理。

虚拟机云看起来像一个很好的部署平台,因为爬取不是很占用 CPU 或内存。

于 2013-02-26T06:14:48.757 回答