Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我编写了一个网络爬虫,使用urllib2从 www.amazon.com 爬取产品信息,但亚马逊似乎将每个 IP 的连接限制为 1。
当我同时启动多个线程进行爬行时,它会引发HTTP Error 503: Service Temporarily Unavailable. 我想启动更多线程以快速爬行,那么我该如何解决这个错误?
HTTP Error 503: Service Temporarily Unavailable
简短版本:你不能,甚至尝试都是个坏主意。
使用 python requests模块通过代理 IP 建立连接。代码看起来像
import requests proxies = { "http": "<an HTTP proxy IP>", "https": "<an HTTPS proxy IP>" } response = requests.get("http://your_url.com", proxies=proxies)
您应该能够从这里获取 HTTP 和 HTTPS 代理 ip 查看更多帮助
您可能应该改用 Amazon API 进行产品查询。