我想运行一个可以在没有 X 服务器的环境中处理 javascript 创建的 html 的爬虫。我知道我可以在 xvfb 下以无头状态运行 Firefox,并且我知道如何在 Firefox 上安装 MozRepl 并在我拥有实际浏览器并可以下载和设置模块时使用 WWW::Mechanize 与之交互。
我不知道如何在没有 X 服务器的环境中在 Firefox 上设置 MozRepl,以便我轻松安装模块。任何帮助表示赞赏。
我想运行一个可以在没有 X 服务器的环境中处理 javascript 创建的 html 的爬虫。我知道我可以在 xvfb 下以无头状态运行 Firefox,并且我知道如何在 Firefox 上安装 MozRepl 并在我拥有实际浏览器并可以下载和设置模块时使用 WWW::Mechanize 与之交互。
我不知道如何在没有 X 服务器的环境中在 Firefox 上设置 MozRepl,以便我轻松安装模块。任何帮助表示赞赏。
无头 html+javascript 有许多选项(主要归功于谷歌在 Chrome 浏览器中使用的新玩具Node.js),具体取决于您要使用的语言,但不幸的是,我所知道的没有一个是基于 firefox 的——那里是crowbar,但自 2008 年以来似乎未更新。
由于 Firefox 已开始将 gecko 与浏览器前端更紧密地集成,因此基于 Firefox 的此类软件已变得不那么可行。
关于 node.js,我对 Perl 产品了解不多,但这里有一些其他产品:
然后还有一些非节点选项:
我相信 node.js 也有一个 python 接口(虽然我不知道它是否实现了浏览器环境),并且可能在 perl 空间以及 node.js 中进行工作。