1

我编写了一个网络爬虫,使用urllib2从 www.amazon.com 爬取产品信息,但亚马逊似乎将每个 IP 的连接限制为 1。

当我同时启动多个线程进行爬行时,它会引发HTTP Error 503: Service Temporarily Unavailable. 我想启动更多线程以快速爬行,那么我该如何解决这个错误?

4

3 回答 3

1

简短版本:你不能,甚至尝试都是个坏主意。

于 2013-04-28T16:28:46.927 回答
0

使用 python requests模块通过代理 IP 建立连接。代码看起来像

import requests

proxies = {
  "http": "<an HTTP proxy IP>",
  "https": "<an HTTPS proxy IP>"
}
response = requests.get("http://your_url.com", proxies=proxies)

您应该能够从这里获取 HTTP 和 HTTPS 代理 ip 查看更多帮助

于 2013-04-28T17:20:00.997 回答
0

您可能应该改用 Amazon API 进行产品查询。

于 2013-04-28T16:33:03.297 回答