我正在寻找一个 python 库来从搜索引擎(谷歌、雅虎、必应等)中抓取结果。
我只找到了谷歌-> http://github.com/kevinw/xgoogle/tree/253db7ddc8603a9dcb038ae42684cf3499a22a4b
有人知道一个用于多个搜索引擎吗?
我正在寻找一个 python 库来从搜索引擎(谷歌、雅虎、必应等)中抓取结果。
我只找到了谷歌-> http://github.com/kevinw/xgoogle/tree/253db7ddc8603a9dcb038ae42684cf3499a22a4b
有人知道一个用于多个搜索引擎吗?
Scrapy是一个非常酷的抓取框架,但您将拥有代码/配置它以适用于您想要的站点。
写它们并不难。我通常只使用php。查看 curl 以检索页面,然后查看 dom 对象和 dom xpath。您可以使用 xpath 选择所需的结果部分。
如果您安装 firebug 和 firexpath,Xpath 非常简单。我现在正在做一个位置检查器。相同的想法,但它根据关键字返回域的位置。
这里的所有答案都已弃用,如果您愿意,可以使用标准的 Google API,您可以在 24 小时内免费发出 1000 个请求。
你还能尝试什么:
但是您最终会被阻止,因此最好使用 Google 支持的 API 或任何其他付费 API。
刮板,你可以刮冰,谷歌,百达,雅虎。检查链接