我正在使用 Node.js 开发一个简单的应用程序,在给定有效 URL 时需要执行以下操作
- 检索远程页面的 HTML,将其保存在本地。
- 爬取 HTML(使用cheerio)并记录所有 JS 和 CSS 文件引用。
- 对每个 JS/CSS 文件进行 HTTP 请求,并按文件名保存到服务器。
- 压缩 html、css 和 js 文件并将生成的文件流式传输到浏览器。
我有 1 和 2 工作,以及 #3 的前半部分,但我遇到了下载同步性质的问题。我的代码运行速度太快,并为 CSS 和 JS 文件生成文件名,但没有任何内容。我猜这是因为我的代码不是同步的。问题是我事先不知道可能有多少个文件,并且在生成 ZIP 文件之前所有这些文件都必须存在。
这是我的应用程序当前存在的流程。我省略了辅助方法,因为它们不会影响同步性。你们中的任何人都可以就我应该做什么提供意见吗?
http.get(fullurl, function(res) {
res.on('data', function (chunk) {
var $source = $(''+chunk),
js = getJS($source, domain),
css = getCSS($source, domain),
uniqueName = pw(),
dir = [baseDir,'jsd-', uniqueName, '/'].join(''),
jsdir = dir + 'js/',
cssdir = dir + 'css/',
html = rewritePaths($source);
// create tmp directory
fs.mkdirSync(dir);
console.log('creating index.html');
// save index file
fs.writeFileSync(dir + 'index.html', html);
// create js directory
fs.mkdirSync(jsdir);
// Save JS files
js.forEach(function(jsfile){
var filename = jsfile.split('/').reverse()[0];
request(jsfile).pipe(fs.createWriteStream(jsdir + filename));
console.log('creating ' + filename);
});
// create css directory
fs.mkdirSync(cssdir);
// Save CSS files
css.forEach(function(cssfile){
var filename = cssfile.split('/').reverse()[0];
request(cssfile).pipe(fs.createWriteStream(cssdir + filename));
console.log('creating ' + filename);
});
// write zip file to /tmp
writeZip(dir,uniqueName);
// https://npmjs.org/package/node-zip
// http://stuk.github.com/jszip/
});
}).on('error', function(e) {
console.log("Got error: " + e.message);
});