3

有没有人有使用诸如海葵之类的宝石编码网络爬虫并将它们部署到heroku供您自己使用的经验?这样一个持续运行的程序会违反任何 Heroku 的 TOA/TOS 吗?

4

2 回答 2

1

我没有任何在 Heroku 中使用网络爬虫的经验(我实际上有兴趣阅读它!)。但这是我的观点:

  1. 这是它的禁止内容。非法活动是被禁止的(duh),因为一些网站“禁止”网络爬虫和屏幕抓取工具(例如IMDb),这可能被认为是非法的。但让我们暂时忽略这一点。

  2. 这些都是它禁止的行为。禁止以下行为:

    数据挖掘任何网络资产(包括 Heroku)以查找电子邮件地址或其他用户帐户信息;

  3. 这些是它的使用限制:

    • 网络带宽:2TB/月 - 软
    • 共享数据库处理:最大每秒 200 毫秒 CPU 时间 - 软
    • 测功机 RAM 使用量:512MB - 硬
    • 蛞蝓大小:200MB - 硬
    • 请求长度:30 秒 - 硬
  4. 在其TOS的第 2.5 点中,解释了:

    反复超出硬性或软性使用限制可能会导致您的帐户被终止。

重点是我的。Heroku 为每个应用程序提供 750 个测功小时。只要你不滥用 Heroku 的服务并且不使用它来收集个人信息,我相信你是清楚的。我建议:

  1. 以某种方式限制您的网络爬虫。正如您应该限制 API 请求的速率一样,您应该有限制爬虫速度的共同礼貌。

  2. 留意你的测功机时间。你可以在这里这样做。

于 2013-05-09T23:22:28.043 回答
1

不再。

Heroku 可接受使用政策在禁止操作 p.21中指出,爬虫必须

  • 通过唯一的用户代理识别自己
  • 服从 robots.txt(包括crawl-delay 指令
  • 从第 20 页开始,要求不要将您的爬虫用作“开放代理”

注意!免费实例每天的工作时间不得超过 18 小时。

于 2015-11-18T22:12:10.890 回答