我有需要使用某个 Google 搜索的第一个条目来修改的数据。此搜索必须使用不同的搜索关键字重复大约 300 000 次(每行)。
我为此使用 wget 编写了一个 bash 脚本。然而,在大约 30 个(同步)请求之后,我的查询似乎被阻止了。
正在连接到 www.google.com (www.google.com)|74.125.24.103|:80... 已连接。已发送 HTTP 请求,等待响应... 404 Not Found
未找到错误404。
我正在使用这个片段:
wget -qO- ‐‐limit-rate=20k --user-agent='Mozilla/5.0 (X11; Linux i686; rv:5.0) Gecko/20100101 Firefox/5.0' "http://www.google.de/search?q=wikipedia%20$encodedString"
我依赖它来工作,所以我希望有人有经验。这不是一项常规工作,不需要快速完成 - 如果 300000 个请求需要一周以上的时间,甚至可以接受。