web-crawler - 将 Nutch 爬网中的数据转储到多个 warc 文件中

Question

我已经使用 Nutch 1.12 抓取了一个网站列表。我可以使用以下方法将爬网数据转储到单独的 HTML 文件中：

./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir

并使用以下方法进入单个 WARC 文件：

./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment

但是如何将收集到的数据转储到多个 WARC 文件中，每个抓取的网页一个？

score 1 · Accepted Answer

经过多次尝试，我设法发现

./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc

完全符合我的需要：将段完整转储到单独的 WARC 文件中！

score 0 · Accepted Answer

每个文档有一个 WARC 听起来有点浪费，但你可以这样做：你可以为 'warc.output.segment.size' 指定一个较低的值，以便每次写入新文档时文件都会轮换。WarcExporter 在引擎盖下使用 [ https://github.com/ept/warc-hadoop]，在那里使用了配置。

web-crawler - 将 Nutch 爬网中的数据转储到多个 warc 文件中

2 回答 2

Related

Reference