1

我想下载整个网页以及使用 PhantomJS 在任何浏览器中呈现网页可能需要的内容(包括 css、javascript、图像、外部资源)。我不想执行脚本,而只是解析 css 和 javascripts 以获得更多内容链接并下载它们。

我尝试使用 wget (完全符合我的需要,但速度很慢,因为它使用与网络服务器的单个 tcp 连接)和 httrack (下载整个网站,在我的情况下我只想下载渲染页面所需的内容)之类的工具通过递归解析文件中的链接)。我目前正在尝试为此目的使用 phantomjs,但找不到正确的使用方法。

任何帮助/指针都非常感谢。

4

1 回答 1

1

尝试使用此代码:

var page = require('webpage').create();

var url = "your url goes here";
var fs = require('fs');
var path = 'index.html';//you might want to change format whether .json .txt etc.

page.open(url, function (status) {
    if(status !== 'success')
        console.log('Connection failed, page was not loaded!');
    else
        var content = page.content;
        fs.write(path, content ,'w')
        phantom.exit();
});

这必须为您提供网页的全部内容。如果您需要进一步的帮助,请告诉我!

于 2016-12-13T15:17:43.857 回答