我正在尝试与 HTML 4.0 网站交互,该网站使用严重混淆的 javascript 来隐藏常规 HTML 元素。我想做的是填写表格并阅读返回的结果,事实证明这比预期的要难。
当我使用 Firebug 阅读页面时,它给了我去混淆的源代码,然后我可以用它来做我想要完成的事情。Firebug 输出显示了网站的所有常规元素,例如 -tags 等,这些元素隐藏在原始源中。
我已经用 Python 编写了我的应用程序的其余部分,使用 mechanize 与其他 Web 服务进行交互,所以如果可能的话,我宁愿使用现有的 Python 模块来执行此操作。问题不仅在于如何以 mechanize 可以理解的方式阅读源代码,还在于如何生成 Web 服务器可以解释的响应。即使 html 代码被混淆,我可以使用常规的机械化控件吗?
在我的项目开始时,我使用 pywebkitgtk 而不是 mechanize,但放弃了它,因为它在 python 中并没有真正实现得那么好。大多数功能都丢失了。启动一个我从中读取 HTML 的 webkit 浏览器并将其与 mechanize 一起使用可能是一种明智的方法吗?
任何帮助将不胜感激,我真的很困。谢谢!
编辑:我尝试转储从 mechanize 获取的 HTML,并使用 load_html_string 使用 pywebkitgtk 打开它,然后以这种方式评估 html。不幸的是,由于我试图解析的文档会动态加载更多资源,因此脚本只是停止等待加载资源。请注意,我不能使用 webkit 加载文档本身,因为我使用 mechanize 的 CookieJar 功能允许我先登录。
我还尝试从 webkit 中转储 HTML,由于某种原因,它只转储了混淆的 javascript,同时完美地显示了网站。如果 webkit 可以像 Firebug 那样转储去混淆的 javascript,我可以使用它并根据干净的代码形成请求..