3

我需要编写一个爬虫来仅从几个预先选择的网站中提取一些信息。

我知道这是一项直接的工作,但我正在考虑使用谷歌应用引擎来完成这项工作。

也许我可以尝试 Nutch 为我做这件事。

这种完成它的方法有多可行?

1)在谷歌基础设施上托管一个爬虫 2)Nutch + 应用程序引擎——这可能吗?

4

1 回答 1

4

只要浏览一下nutch 文档,我就会看到诸如“[t]这是 Nutch 的第二个版本完全基于底层 Hadoop 平台”之类的评论,这让我怀疑这不会在App Engine上运行。App Engine 应用在PythonJava沙箱中运行。

也就是说,您应该能够在 App Egnine 上放置一个基本的爬虫。我的基本实现可能涉及启动使用urlfetch抓取页面的任务,然后可选地插入其他任务来处理文档链接到的链接。您可以使用计划任务启动爬网。

于 2010-12-07T05:54:47.383 回答