javascript - 按照 mechanize 和 python 的 javascript 链接

Question

我正在做一些网络抓取，项目几乎完成了，除了我需要单击一个 javascript 链接并且我不知道如何使用 Python 和机械化。

在其中一个页面上，出现了一个 javascript 链接列表，我想依次关注它们，抓取一些数据，然后重复。我知道 mechanize 不适用于 javascript，但有人知道解决方法吗？这是我用来隔离链接的代码：

for Auth in iterAuths:
     Auth = str(Auth.contents[0]).strip()
     br.find_link(text=Auth)

现在如果我这样做br.follow_link(text=Auth)，我会得到一个错误urllib2.URLError: <urlopen error unknown url type: javascript>。

如果我这样做print br.click_link(text=Auth')，它会打印为Request for javascript:SendThePage('5660')

我只需要通过 javascript 链接。任何人都可以帮忙吗？

score 2 · Accepted Answer

当我需要做类似的事情时，我查看了我试图关注的链接。

其中一些是使用 javascript 生成的静态链接。它们足够可预测/一致，我可以事先手动生成一个列表。

其他的只是带有参数的构造 URL。这些也可以事先分析并生成 python 端并作为请求传递，而不是“单击此链接”。

如果您需要实际执行 javascript，您可以运行 PyV8 + Mechanize 混合。我一直在玩这个，它看起来很酷。PyV8 将 Python 与 V8 Javascript 引擎连接起来，允许您创建 JS 环境并执行任意代码。它在两种语言之间来回切换做得很好。

我没有任何示例代码，但是这 3 种解决方案中的一种对您有用:) 祝你好运！

1 回答 1