Node.js 中的新手我尝试使用sanitize-html模块清理node.js 中的 html -我认为这个问题看起来更通用:
插件输出一个对象(我打印到控制台并显示 [object]) - 我怎么知道如何使用这个对象?它的字段是什么,如何将其写入文件等(我知道这可能听起来很基本 - 我应该序列化它吗?使用对象的方法是什么......)
var Crawler = require("js-crawler");
var download = require("url-download");
var sanitizeHtml = require('sanitize-html');
var util = require('util');
var fs = require('fs');
new Crawler().configure({depth: 1})
.crawl("http://www.cnn.com", function onSuccess(page) {
var clean = sanitizeHtml(page);
console.log(clean);
fs.writeFile('sanitized.txt', clean, function (err) {
if (err) throw err;
console.log('It\'s saved! in same location.');
});
console.log(util.inspect(clean, {showHidden: false, depth: null}));
var str = JSON.stringify(clean.toString());
console.log(str);
/*download(page.url, './download')
.on('close', function () {
console.log('One file has been downloaded.');
});*/
});