我已经使用 Nutch 成功爬取了一个网站,现在我想从结果中创建一个 warc。但是,运行 warc 和 commoncrawldump 命令都会失败。此外,bin/nutch dump -segement ....
在同一段文件夹上运行成功。
我正在使用 nutch v-1.17 并运行:
bin/nutch commoncrawldump -outputDir output/ -segment crawl/segments
hadoop.log 的错误是ERROR tools.CommonCrawlDataDumper - No segment directories found in my/path/
尽管刚刚在那里进行了爬网。