2

我已经使用 Nutch 1.12 抓取了一个网站列表。我可以使用以下方法将爬网数据转储到单独的 HTML 文件中:

./bin/nutch dump -segment crawl/segments/ -o outputDir nameOfDir

并使用以下方法进入单个 WARC 文件:

./bin/nutch warc crawl/warcs crawl/segment/nameOfSegment

但是如何将收集到的数据转储到多个 WARC 文件中,每个抓取的网页一个?

4

2 回答 2

1

经过多次尝试,我设法发现

./bin/nutch commoncrawldump -outputDir nameOfOutputDir -segment crawl/segments/segmentDir -warc

完全符合我的需要:将段完整转储到单独的 WARC 文件中!

于 2016-10-26T12:53:41.497 回答
0

每个文档有一个 WARC 听起来有点浪费,但你可以这样做:你可以为 'warc.output.segment.size' 指定一个较低的值,以便每次写入新文档时文件都会轮换。WarcExporter 在引擎盖下使用 [ https://github.com/ept/warc-hadoop],在那里使用了配置。

于 2016-10-24T15:00:56.230 回答