我一直在使用 PhantomJS 来生成我们的一些应用程序页面的静态版本,这些页面使用 ajax 调用来呈现页面的各个部分。获取 HTML 内容的 PhantomJS 脚本看起来很简单:
var page = require('webpage').create();
page.settings.userAgent = 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.70 Safari/537.17';
// I want JS to execute, so that the ajax sections can be loaded
page.settings.javascriptEnabled=true;
page.open('http://<host>/<some-page>/', function (status) { if (status !== 'success')
{
console.log('Unable to access network');
} else {
console.log(page.content);
}
phantom.exit();
});
我遇到的问题是,一些 JS 脚本(如 requirejs 和 Google Analytics)通过添加相关的 JS 脚本来修改文档,并且几乎将它们内联在文档中。例如:
<script data-main="main" src="require.js"/>
转换为:
<script type="text/javascript" charset="utf-8" async="" data-requirecontext="_" data-requi remodule="jquery" src="/media/js/../lib/jquery/jquery-1.7.1.min.js"> .....
长话短说,我想使用 phantomJS 生成页面的静态(HTML)版本:
- 使用 ajax 请求来填充某些部分。
- 保持 css 和 JS 链接不变,避免它们被内联。