我在本地体验了 Nutch 2.1 没有任何困难。我还尝试了 3 台机器分布式集群。我们现在正在讨论是否使用 Amazon Web Services 运行它。我对 AWS 没有太多经验。我的问题是,尝试 Nutch2.1 在云上爬行和索引部件是否有可能和必要。我们会有哪些可能的优势和劣势?
谢谢。
如果您有一个与 AWS 集群(您计划投资)具有相同容量的集群,那么除了下面的 #1 之外没有任何优势。
在切换到 AWS 之前,您应该考虑以下几个因素:
抓取主机的位置:如果您位于欧洲,并且您要抓取的网站托管在很远的地方……比如说澳大利亚。如果您购买位于澳大利亚的 AWS 节点,那么爬取该数据会比从欧洲爬取要快得多。
成本:对于使用 AWS 机器,您需要按小时付费。你能负担得起吗?如果不是更好地使用你自己的机器
当前集群容量:您当前的集群是否有足够的容量和空间来处理爬取的数据量?我认为在计算速度方面不会有问题,因为 Nutch 在 Hadoop 上运行,Hadoop 旨在在商品硬件上运行。您的集群能否容纳爬虫获取的全部数据。
数据量:对正在抓取的数据的粗略估计是多少?如果它更少,那么拥有 AWS 集群就没有意义了。
时间限制:是否有完成爬网的时间限制?
如果您是为专业项目执行此操作,则必须考虑这些因素。
如果您这样做是为了娱乐/爱好/学习,请继续使用 AWS 的免费层级节点。这些是亚马逊免费提供的低容量节点。学习新事物很有趣:)
AWS 的优势:
AWS的缺点: