2

我是一名专门从事网络抓取的 Python 程序员,我不得不问这个问题,因为我没有发现任何相关内容。

我想知道有哪些流行的、有据可查的框架可用于 Python 来抓取纯 Javascript 的网站?目前我知道 Mechanize 和 Beautiful Soup,但它们不与 Javascript 交互,所以我正在寻找不同的东西。我更喜欢像机械化一样优雅和简单的东西。

我做了一些研究,到目前为止,我听说过 Selenium、Selenium 2 和 Windmill。

现在我正在尝试在这三个中选择一个,我不知道其他任何一个。

那么谁能指出这些框架的特性以及它们的不同之处?我听说 Selenium 使用一个单独的服务器来完成它的所有任务,而且它似乎功能丰富。Selenium 和 Selenium2 之间的核心区别是什么?如果我错了,请赐教,如果您知道任何其他框架,请提及它的功能和其他细节。

谢谢。

4

1 回答 1

0

在使用像 Selenium 这样专为前端测试而非抓取而设计的工具之前,您应该看看网站上的数据来自哪里。找出发出了哪些 XHR 请求、它们采用了哪些参数以及结果是什么。

例如,您在评论中提到的站点使用 JavaScript 中的大量参数执行 POST 请求并显示结果。您可能只需要使用此 POST 请求的结果来获取您的数据。

于 2011-06-12T14:34:08.547 回答