Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
朋友们,我已经用 Java 实现了一个多线程的 Web Crawler。为了提高效率,我想将其转换为分布式架构,即在 3 台机器上。据我搜索主从架构是最好的。谁能提供一些关于哪个是最好的架构以及我如何在 Java 中实现它的见解?
您可以为每个被抓取的域计算哈希码,并使用此哈希来确定哪个节点应该抓取该域。这样,所有节点都可以并行工作而无需太多交互。
您还需要一些代码在爬取完成后或定期合并爬取结果。可能最好只从节点复制一些生成的档案并在中央位置处理。
虚拟机云看起来像一个很好的部署平台,因为爬取不是很占用 CPU 或内存。