我需要编写一个爬虫来仅从几个预先选择的网站中提取一些信息。
我知道这是一项直接的工作,但我正在考虑使用谷歌应用引擎来完成这项工作。
也许我可以尝试 Nutch 为我做这件事。
这种完成它的方法有多可行?
1)在谷歌基础设施上托管一个爬虫 2)Nutch + 应用程序引擎——这可能吗?
我需要编写一个爬虫来仅从几个预先选择的网站中提取一些信息。
我知道这是一项直接的工作,但我正在考虑使用谷歌应用引擎来完成这项工作。
也许我可以尝试 Nutch 为我做这件事。
这种完成它的方法有多可行?
1)在谷歌基础设施上托管一个爬虫 2)Nutch + 应用程序引擎——这可能吗?
只要浏览一下nutch 文档,我就会看到诸如“[t]这是 Nutch 的第二个版本完全基于底层 Hadoop 平台”之类的评论,这让我怀疑这不会在App Engine上运行。App Engine 应用在Python或Java沙箱中运行。
也就是说,您应该能够在 App Egnine 上放置一个基本的爬虫。我的基本实现可能涉及启动使用urlfetch抓取页面的任务,然后可选地插入其他任务来处理文档链接到的链接。您可以使用计划任务启动爬网。