1

我已经使用 Nutch 成功爬取了一个网站,现在我想从结果中创建一个 warc。但是,运行 warc 和 commoncrawldump 命令都会失败。此外,bin/nutch dump -segement .... 在同一段文件夹上运行成功。

我正在使用 nutch v-1.17 并运行:

bin/nutch commoncrawldump -outputDir output/ -segment crawl/segments

hadoop.log 的错误是ERROR tools.CommonCrawlDataDumper - No segment directories found in my/path/ 尽管刚刚在那里进行了爬网。

4

1 回答 1

0

在segments 文件夹中是来自先前抓取的段,这些段抛出了错误。它们不包含所有细分数据,因为我认为抓取已提前取消/完成。这导致整个过程失败。删除所有这些文件并重新开始解决了这个问题。

于 2020-09-15T12:59:13.727 回答