7

我想运行一个可以在没有 X 服务器的环境中处理 javascript 创建的 html 的爬虫。我知道我可以在 xvfb 下以无头状态运行 Firefox,并且我知道如何在 Firefox 上安装 MozRepl 并在我拥有实际浏览器并可以下载和设置模块时使用 WWW::Mechanize 与之交互。

我不知道如何在没有 X 服务器的环境中在 Firefox 上设置 MozRepl,以便我轻松安装模块。任何帮助表示赞赏。

4

1 回答 1

3

无头 html+javascript 有许多选项(主要归功于谷歌在 Chrome 浏览器中使用的新玩具Node.js),具体取决于您要使用的语言,但不幸的是,我所知道的没有一个是基于 firefox 的——那里是crowbar,但自 2008 年以来似乎未更新。

由于 Firefox 已开始将 gecko 与浏览器前端更紧密地集成,因此基于 Firefox 的此类软件已变得不那么可行。

关于 node.js,我对 Perl 产品了解不多,但这里有一些其他产品:

  • 僵尸 (javascript)
  • mink (PHP 5.3) (使用僵尸作为后端)

然后还有一些非节点选项:

  • phantomjs (javascript)(使用 webkit 后端,可能需要安装 X)
  • htmlunit (java)
  • akephalos (ruby) (使用 htmlunit 后端)

我相信 node.js 也有一个 python 接口(虽然我不知道它是否实现了浏览器环境),并且可能在 perl 空间以及 node.js 中进行工作。

于 2011-10-24T18:26:10.577 回答