3

我想将一些带有 javascript 的网页转换为纯 html,我发现有几种方法(如果我错了,请告诉我):

  1. 使用 Jython,例如:http ://blog.databigbang.com/web-scraping-ajax-and-javascript-sites/
  2. 将 Java 与 htmlunit 一起使用
  3. 使用代理,例如: http: //grep.codeconsult.ch/2007/02/24/crowbar-scrape-javascript-generated-pages-via-gecko-and-rest/
  4. 将 python 与 qt 或 PyV8 一起使用

因为我想做一个小工具来满足我的要求,我觉得安装V8和qt有点复杂,虽然python是我的首选。

所以我尝试用 gecko 做一个代理,但它似乎需要一个我在远程 Linux 服务器上买不起的 DISPLAY。

现在我正在尝试使用 jython,但似乎没有简单的方法可以将整个页面转换为纯 html。

实际上,我想问有没有一种方法可以将包含 javascript 的网页转换为纯 html,就像浏览器一样。node.js 可以完成这项工作吗?

4

1 回答 1

2

我最近在 PhantomJS 之上构建了一个服务器来执行此操作。我强烈推荐这条路线。

http://phantomjs.org/

基本上,您编写一个让 PhantomJS 运行页面的快速脚本,并配置一个触发方法,让您知道页面已完成并发送数据。我的版本使用内置的 HTTP 服务器,所以 PhantomJS 很容易自己提供结果。这需要大约 15 行代码来完成。(抱歉,这里不能贴。。。上班时间写的。但是,看看他们主页上的例子。差不多完成了!)

于 2013-10-21T03:52:47.653 回答