0

我正在寻找一个 python 库来从搜索引擎(谷歌、雅虎、必应等)中抓取结果。

我只找到了谷歌-> http://github.com/kevinw/xgoogle/tree/253db7ddc8603a9dcb038ae42684cf3499a22a4b

有人知道一个用于多个搜索引擎吗?

4

4 回答 4

1

Scrapy是一个非常酷的抓取框架,但您将拥有代码/配置它以适用于您想要的站点。

于 2010-08-01T23:51:23.200 回答
0

写它们并不难。我通常只使用php。查看 curl 以检索页面,然后查看 dom 对象和 dom xpath。您可以使用 xpath 选择所需的结果部分。

如果您安装 firebug 和 firexpath,Xpa​​th 非常简单。我现在正在做一个位置检查器。相同的想法,但它根据关键字返回域的位置。

于 2010-08-05T00:25:48.973 回答
0

这里的所有答案都已弃用,如果您愿意,可以使用标准的 Google API,您可以在 24 小时内免费发出 1000 个请求。

你还能尝试什么:

  • 使用请求
  • 使用硒
  • 使用第 3 方谷歌图书馆(据我所知,所有这些都已弃用)

但是您最终会被阻止,因此最好使用 Google 支持的 API 或任何其他付费 API。

于 2019-10-24T20:05:29.957 回答
-1

刮板,你可以刮冰,谷歌,百达,雅虎。检查链接

于 2015-10-12T08:53:27.487 回答