2

使用下面的代码,我一直在尝试下载 URL,保存到文件,然后检查该文件中是否有任何 html 标签(我要检查的标签在 checks.json 中)。我需要从命令行运行它,为此我认为我需要 javascript 语言的异步回调功能。

我在这一点上迷路了。我不能让它工作。我的问题是从命令行我总是得到文件不存在的错误。

我知道它需要等到它被下载然后运行检查。但似乎每次我运行代码时,都不会调用该函数。我不知道为什么。

所以我需要了解的是:

我如何从命令行运行它,下载 URL,将其保存到文件,检查 checks.json 并将结果打印到控制台。

谢谢你。

var fs = require('fs');
var program = require('commander'); 
var cheerio = require('cheerio');
var rest = require('restler');
var HTMLFILE_DEFAULT = "index.html";
var CHECKSFILE_DEFAULT = "checks.json";
var URLFILE_DEFAULT = "downloaded.html";


var assertFileExists = function(infile) {
    var instr = infile.toString();
    if(!fs.existsSync(instr)) {
        console.log("%s does not exist. Exiting.", instr);
        process.exit(1); // http://nodejs.org/api/process.html#process_process_exit_code
    }
    return instr;
};

var cheerioHtmlFile = function(htmlfile) {
    return cheerio.load(fs.readFileSync(htmlfile));
};

var loadChecks = function(checksfile) {
    return JSON.parse(fs.readFileSync(checksfile));
};

var checkHtmlFile = function(htmlfile, checksfile) {
    $ = cheerioHtmlFile(htmlfile);
    var checks = loadChecks(checksfile).sort();
    var out = {};
    for(var ii in checks) {
        var present = $(checks[ii]).length > 0;
        out[checks[ii]] = present;
    }
    return out;
};

var clone = function(fn) {
    // Workaround for commander.js issue.
    // http://stackoverflow.com/a/6772648
    return fn.bind({});
};

var downAnd2File = function() {
  rest.get('http://www.wired.com/').on('complete', function(result) {
  if (result instanceof Error) {
    sys.puts('Error: ' + result.message);
    this.retry(5000); // try again after 5 sec
  } else 

  {
    fs.writeFile(__dirname + '/downloaded.html', result, function(err) {
    if (err) throw err;
    console.log('Saved!');

});
  }
});
  downAnd2File(checkHtmlFile);
}

if(require.main == module) {
    program
        .option('-c, --checks <check_file>', 'Path to checks.json', clone(assertFileExists), CHECKSFILE_DEFAULT)
        .option('-f, --file <html_file>', 'Path to index.html', clone(assertFileExists), HTMLFILE_DEFAULT)
        .option('-u, --url  <html_file>', 'Path to downloaded url', clone(assertFileExists), URLFILE_DEFAULT) ///////////////
        .parse(process.argv); 
    var down2FileAndCheck = downAnd2File(checkHtmlFile(program.url, program.checks));
    var checkJson = checkHtmlFile(program.file, program.checks);
    var outJson = JSON.stringify(checkJson, null, 4);
    console.log(outJson);

} else {
    exports.checkHtmlFile = checkHtmlFile;
}
4

3 回答 3

4

您似乎不了解回调在 node.js 中是如何工作的。您将需要在 stackoverflow 或其他地方阅读有关它的信息。

我重写了你的程序(但没有测试它),研究它并问我你是否有任何问题。

// halts if the provided filename doesn't exist
function assertFileExists(filename) {
    if (!fs.existsSync(filename)) {
        console.log("%s does not exist. Exiting.", filename);
        process.exit(1);
    }
    return filename;
}

// loads checks from a file
function loadChecks(checksfile) {
    return JSON.parse(fs.readFileSync(checksfile)).sort();
}

// checks html
function checkHtml(html, checks) {
    $ = cheerio.load(html);
    var out = {};
    for(var ii in checks) {
        var present = $(checks[ii]).length > 0;
        out[checks[ii]] = present;
    }
    return out;
}

// loads html from a file and checks it
// for exports only
function checkHtmlFile(filename, checks) {
    return checkHtml(fs.readFileSync(filename), checks);
}

// downloads html from the internet
// callback is called with two arguments: err, html
// where err is null if there is no error
function download(url, callback) {
    var resp = rest.get(url);
    resp.on('complete', function(result) {
        if (result instanceof Error) {
            // callback(result);
            sys.puts('Error: ' + result.message);
            this.retry(5000); // try again after 5 sec
            return;
        }
        callback(null, result);
    });
}

if (require.main == module) {
    program
        .option('-c, --checks <check_file>', 'Path to checks.json', assertFileExists, CHECKSFILE_DEFAULT)
        .option('-f, --file <html_file>', 'Path to index.html', assertFileExists, HTMLFILE_DEFAULT)
        .option('-u, --url  <url>', 'Path to downloaded url') ///////////////
        .parse(process.argv); 

    // this function loads checks & checks html
    function check(err, html) {
        if (err) {
            console.log('Error getting html: ' + err);
            process.exit(1);
        }
        var checks = loadChecks(program.checks);
        var checkJson = checkHtml(html, checks);
        var outJson = JSON.stringify(checkJson, null, 4);
        console.log(outJson);
    }

    if (program.url) {
        // download the provided url and then check the html
        download(program.url, check);
    } else if (program.file) {
        // load html from a file and then check it
        fs.readFile(program.file, check);
    }
} else {
    exports.loadChecks = loadChecks; // for loading checks
    exports.checkHtmlFile = checkHtmlFile; // for checking a file
}
于 2013-07-09T10:33:32.817 回答
1

正如 Mak 已经提到的,您实际上并不需要下载并保存刚刚获取的 html。

这是对原始代码的小重构。这个想法是获取 html(从 url 或保存的文件)。一旦结果/数据准备就绪,调用该方法对内容进行检查。

function checkHtml(err, html){
    if (err){
        console.log('Error: ' + err);
        process.exit(1);
    }
    var checkJson = checkHtmlFile(html, program.checks);
    var outJson = JSON.stringify(checkJson, null, 4);
    console.log(outJson);
}

if(require.main == module){

    program
        .option('-c, --checks <check_file>', 'Check path', clone(assertFileExists), CHECKS_DEF)
        .option('-f, --file <html_file>', 'File path', clone(assertFileExists), HTML_DEF)
        .option('-u, --url <url_pointer>', 'Url link that needs to be graded')
        .parse(process.argv);

    if (program.url){
        rest.get(program.url)
            .on('complete', function(result){
                checkHtml((html instanceof Error), result);
            });

    } else {
        fs.readFile(program.file, checkHtml);
    }
}

希望这可以帮助。

于 2013-07-10T04:02:13.510 回答
0

以防万一您的问题在执行任何 JS 代码之前发生:

您可能希望使文件可执行

  chmod +x <filename>

并在您的文件顶部添加此语句:

  #!/usr/bin/env node

对不起,如果它已经是这种情况

于 2013-07-09T10:37:14.483 回答