我只想做表单输入和网页抓取等任务,但在需要 javascript 支持的网站上。而且我还需要在同一个会话中输入表单、抓取等。理想情况下,我想要一种从命令行控制网络浏览器的方法。而且我还想只使用 Linux 来完成这一切,所以我不能使用 .NET。
我找到了 Python 的 webbrowser 库,但它的功能看起来非常有限。如果它可以与 mechanize 和 BeautifulSoup 交互,那就太棒了。有什么建议么?谢谢!
我只想做表单输入和网页抓取等任务,但在需要 javascript 支持的网站上。而且我还需要在同一个会话中输入表单、抓取等。理想情况下,我想要一种从命令行控制网络浏览器的方法。而且我还想只使用 Linux 来完成这一切,所以我不能使用 .NET。
我找到了 Python 的 webbrowser 库,但它的功能看起来非常有限。如果它可以与 mechanize 和 BeautifulSoup 交互,那就太棒了。有什么建议么?谢谢!
这已经被问过了。
您当然可以使用 Mozilla 编写一个 XUL 应用程序(使用 Firefox、Xulrunner 等运行它),它为 Web 浏览器编写脚本。Javascript 通常用于此类任务。
我发现棘手的是抑制浏览器否则会创建的所有类型的对话框 - 您实际上必须覆盖为每种类型的对话调用的 XPCOM 服务器类的行为,并且有很多不同的那些(例如,如果您的站点决定重定向到具有过期证书的 https 站点)。
当然,您不应该使用这种机制来违反任何网站关于机器人使用的政策。通常,您永远不应该使用机器人提交表单。