python - 连接数受限时如何快速爬取网页

Question

我编写了一个网络爬虫，使用urllib2从 www.amazon.com 爬取产品信息，但亚马逊似乎将每个 IP 的连接限制为 1。

当我同时启动多个线程进行爬行时，它会引发HTTP Error 503: Service Temporarily Unavailable. 我想启动更多线程以快速爬行，那么我该如何解决这个错误？

score 1 · Accepted Answer

1

简短版本：你不能，甚至尝试都是个坏主意。

于 2013-04-28T16:28:46.927 回答

score 0 · Accepted Answer

使用 python requests模块通过代理 IP 建立连接。代码看起来像

import requests

proxies = {
  "http": "<an HTTP proxy IP>",
  "https": "<an HTTPS proxy IP>"
}
response = requests.get("http://your_url.com", proxies=proxies)

您应该能够从这里获取 HTTP 和 HTTPS 代理 ip 查看更多帮助

score 0 · Accepted Answer

0

您可能应该改用 Amazon API 进行产品查询。

于 2013-04-28T16:33:03.297 回答

python - 连接数受限时如何快速爬取网页

3 回答 3

Related

Reference