我正在使用 MySQL 来获取用于网络爬虫的 url。目前我使用 csv-stringify 获取数据,如下所示:
conn.query('SELECT id, URL FROM company_table')
.stream()
.pipe(stringifier).pipe(process.stdout);
我在 process.stdout 中看到了数据,但是我如何使用数据本身,因为我需要将 url 和 id 传递给另一个函数进行处理。我不确定我需要用什么来代替 process.stdout 来满足我的需要。
数据基本上看起来像38391,ysu.edu
我有另一个刮板,我在其中流式传输 csv 文件,例如
let fname = '/Users/tom/Scrappers/companies1k.csv';
fs.createReadStream(fname).pipe(csv()).on('data',
(row) => cluster.queue({url: `http://www.${row.domain}`}));
这很好用,但我只是看不到我如何以与 puppeteer-cluster 相同的方式将 db 流传输到 puppeteer-cluster。
有任何想法吗?