google-app-engine - 在谷歌应用引擎上为选定的网站运行网络爬虫？

Question

我需要编写一个爬虫来仅从几个预先选择的网站中提取一些信息。

我知道这是一项直接的工作，但我正在考虑使用谷歌应用引擎来完成这项工作。

也许我可以尝试 Nutch 为我做这件事。

这种完成它的方法有多可行？

1）在谷歌基础设施上托管一个爬虫 2）Nutch + 应用程序引擎——这可能吗？

score 4 · Accepted Answer

只要浏览一下nutch 文档，我就会看到诸如“[t]这是 Nutch 的第二个版本完全基于底层 Hadoop 平台”之类的评论，这让我怀疑这不会在App Engine上运行。App Engine 应用在Python或Java沙箱中运行。

也就是说，您应该能够在 App Egnine 上放置一个基本的爬虫。我的基本实现可能涉及启动使用urlfetch抓取页面的任务，然后可选地插入其他任务来处理文档链接到的链接。您可以使用计划任务启动爬网。

1 回答 1