1

我在本地体验了 Nutch 2.1 没有任何困难。我还尝试了 3 台机器分布式集群。我们现在正在讨论是否使用 Amazon Web Services 运行它。我对 AWS 没有太多经验。我的问题是,尝试 Nutch2.1 在云上爬行和索引部件是否有可能和必要。我们会有哪些可能的优势和劣势?

谢谢。

4

1 回答 1

3

如果您有一个与 AWS 集群(您计划投资)具有相同容量的集群,那么除了下面的 #1 之外没有任何优势。

在切换到 AWS 之前,您应该考虑以下几个因素:

  1. 抓取主机的位置:如果您位于欧洲,并且您要抓取的网站托管在很远的地方……比如说澳大利亚。如果您购买位于澳大利亚的 AWS 节点,那么爬取该数据会比从欧洲爬取要快得多。

  2. 成本:对于使用 AWS 机器,您需要按小时付费。你能负担得起吗?如果不是更好地使用你自己的机器

  3. 当前集群容量:您当前的集群是否有足够的容量和空间来处理爬取的数据量?我认为在计算速度方面不会有问题,因为 Nutch 在 Hadoop 上运行,Hadoop 旨在在商品硬件上运行。您的集群能否容纳爬虫获取的全部数据。

  4. 数据量:对正在抓取的数据的粗略估计是多少?如果它更少,那么拥有 AWS 集群就没有意义了。

  5. 时间限制:是否有完成爬网的时间限制?

如果您是为专业项目执行此操作,则必须考虑这些因素。

如果您这样做是为了娱乐/爱好/学习,请继续使用 AWS 的免费层级节点。这些是亚马逊免费提供的低容量节点。学习新事物很有趣:)

AWS 的优势:

  1. 无需购买机器来设置集群。除了终端 PC 外,无需任何硬件即可开始使用。
  2. 地方性
  3. 无需照看机器。如果一个节点严重崩溃,请留下它(这不是你的问题:P)。购买一个新的,将其添加到集群中,然后继续。

AWS的缺点:

  1. 昂贵。
  2. Copying data to any machine outside AWS cluster is charged.
  3. Your data is NOT persisted when u give up the procured AWS nodes. If u want to persist it, pay them and use the S3 storage service.
于 2013-01-06T01:18:14.423 回答