python - 解析并与混淆的 javascript 交互

Question

我正在尝试与 HTML 4.0 网站交互，该网站使用严重混淆的 javascript 来隐藏常规 HTML 元素。我想做的是填写表格并阅读返回的结果，事实证明这比预期的要难。

当我使用 Firebug 阅读页面时，它给了我去混淆的源代码，然后我可以用它来做我想要完成的事情。Firebug 输出显示了网站的所有常规元素，例如 -tags 等，这些元素隐藏在原始源中。

我已经用 Python 编写了我的应用程序的其余部分，使用 mechanize 与其他 Web 服务进行交互，所以如果可能的话，我宁愿使用现有的 Python 模块来执行此操作。问题不仅在于如何以 mechanize 可以理解的方式阅读源代码，还在于如何生成 Web 服务器可以解释的响应。即使 html 代码被混淆，我可以使用常规的机械化控件吗？

在我的项目开始时，我使用 pywebkitgtk 而不是 mechanize，但放弃了它，因为它在 python 中并没有真正实现得那么好。大多数功能都丢失了。启动一个我从中读取 HTML 的 webkit 浏览器并将其与 mechanize 一起使用可能是一种明智的方法吗？

任何帮助将不胜感激，我真的很困。谢谢！

编辑：我尝试转储从 mechanize 获取的 HTML，并使用 load_html_string 使用 pywebkitgtk 打开它，然后以这种方式评估 html。不幸的是，由于我试图解析的文档会动态加载更多资源，因此脚本只是停止等待加载资源。请注意，我不能使用 webkit 加载文档本身，因为我使用 mechanize 的 CookieJar 功能允许我先登录。

我还尝试从 webkit 中转储 HTML，由于某种原因，它只转储了混淆的 javascript，同时完美地显示了网站。如果 webkit 可以像 Firebug 那样转储去混淆的 javascript，我可以使用它并根据干净的代码形成请求..

score 1 · Accepted Answer

与其尝试处理页面，不如使用 Firebug 找出表单字段的名称，然后使用 httplib 或其他任何东西发送带有必要字段和设置的请求？

如果它是使用 ajax 发送的，您应该能够确定在 Firebug 中发送到服务器的值。

python - 解析并与混淆的 javascript 交互

1 回答 1

Related

Reference