我有一个异步函数,可以从 csv 文件中读取网站列表。
async function readCSV(){
const fileStream = fs.createReadStream('./topm.csv');
const rl = readline.createInterface({
input: fileStream,
crlfDelay: Infinity
});
for await (const line of rl) {
var currentline=line.split(",");
var res_server_http = await check_page("http://www."+currentline[1])
}
}
每次我阅读一个网站时,我都会调用 check_page 函数来执行一些操作。每次我有一个,我都会等待它的结束,然后再开始新的站点。
async function check_page(web_page){
// do some operations....
}
到目前为止,它可以正常工作,但现在我必须将我的代码与网络爬虫集成。在readCSV
函数内部,我必须为我阅读的每个站点以及每个我应该调用check_page
函数的站点调用它。
现在我readCSV
以这种方式编辑:
const fileStream = fs.createReadStream('./topm.csv');
const rl = readline.createInterface({
input: fileStream,
crlfDelay: Infinity
});
for await (const line of rl) {
var currentline=line.split(",");
await (new Promise( resolve => {
new Crawler().configure({depth: 2})
.crawl(site, async (page) => {
//console.log(page.url);
var res_server_http = await check_page("http://www."+currentline[1])
// Resolve here
resolve();
});
}));
}
我正在将此代码用于网络爬虫:https ://www.npmjs.com/package/js-crawler
这个函数现在不起作用,因为它不是异步的。如何更改我的代码?
现在我有这个错误:
(node:907) UnhandledPromiseRejectionWarning: ReferenceError: site is not defined
at /Users/francesco/Desktop/tesi/crawler.js:55:14
at new Promise (<anonymous>)
at readCSV (/Users/francesco/Desktop/tesi/crawler.js:53:12)
at processTicksAndRejections (internal/process/task_queues.js:97:5)
(节点:907) UnhandledPromiseRejectionWarning:未处理的承诺拒绝。此错误源于在没有 catch 块的情况下抛出异步函数内部,或拒绝未使用 .catch() 处理的承诺。要在未处理的 Promise 拒绝时终止节点进程,请使用 CLI 标志--unhandled-rejections=strict
(请参阅https://nodejs.org/api/cli.html#cli_unhandled_rejections_mode)。(拒绝 ID:2)(节点:907)[DEP0018] DeprecationWarning:不推荐使用未处理的承诺拒绝。将来,未处理的 Promise 拒绝将使用非零退出代码终止 Node.js 进程。