5

我正在尝试在 craigslist sfbay.craigslist.org上执行 HTTP GET 。这是我的(ruby)代码,非常简单

require 'net/http'
result = Net::HTTP.get(URI.parse('http://sfbay.craigslist.org'))

我最终收到错误消息“此 IP 已被自动阻止”。

仅当我从 Amazon EC2 或 heroku 上尝试此操作时,才会发生此行为。当我在自己的计算机 localhost 上再次尝试时,我得到了正确的结果。这与 Amazon EC2 有关系吗?

我想知道其他人是否有同样的问题。如何从 EC2 访问 craigslist?

4

1 回答 1

9

我可以确认 Craigslist 正在通过 IP(而不是用户代理)阻止主要的 Amazon EC2 IP 范围。它可以在其他地方工作,但我怀疑任何卷都会导致其他 IP 被阻止。

你可以用tor绕过它。更重要的是,这个 stackoverflow 问题讨论了 craigslist mashups 使用的数据源

我什至测试了巴西 EC2,假设他们可能没有阻止所有 CIDR。没有布埃诺。

于 2013-01-21T14:32:46.067 回答