我想制作一个能够登录网站的网络抓取应用程序(我可以使用斜纹布(python)做到这一点),并且还能够执行触发对其他页面的访问的 JavaScript。
我肯定更喜欢在 python 中使用一些东西,但我已经准备好尝试新的东西了。我已经安装了 mechanize、watir、Hojocki 等,但不确定这是否真的有帮助。
我想制作一个能够登录网站的网络抓取应用程序(我可以使用斜纹布(python)做到这一点),并且还能够执行触发对其他页面的访问的 JavaScript。
我肯定更喜欢在 python 中使用一些东西,但我已经准备好尝试新的东西了。我已经安装了 mechanize、watir、Hojocki 等,但不确定这是否真的有帮助。
我相信有一些模块(例如Ghost),但我已经使用Selenium /WebDriver 来完成这样的事情。它表面上是一个测试框架,但它为您提供了许多方法来允许您与页面进行交互,就像您以普通用户的身份加载它一样。您还可以运行它,以便浏览器实际打开并且您可以观看代码执行(使调试更容易),或者在代码执行的“无头”模式下(还有其他站点/SO 答案更好比我能给出的解释:))。
话虽这么说,Ghost 看起来也很棒,所以尝试一下它们,希望其中一个能满足您的需求!
另外,请参阅没有用于自动化的 GUI 的 Javascript(和 HTML 渲染)引擎?对于可能有一些额外答案的类似问题。
我会推荐Octoparse,一个适用于 Windows 的免费网络爬虫。它不是可编程的,但它非常易于使用。但是没有Mac版本。所以... JavaScript可以由Octoparse btw处理。