1

我刚开始使用 Nutch 1.6。我执行了我的初始爬取,该爬取成功,直到遇到以下问题:

LinkDb:添加段:文件:/var/apache-nutch/crawl/segments/2013031234747 LinkDb:添加段:文件:/var/apache-nutch/crawl/segments/2013031250939 线程“主”org.apache.hadoop 中的异常。 mapred.InvalidInputException:输入路径不存在:文件:/var/apache-nutch/crawl/segments/20130308114306/parse_data 输入路径不存在:文件:/var/apache-nutch/crawl/segments/20130312135244/parse_data at org .apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:197) 在 org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:40) 在 org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat .java:208) 在 org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:989) 在 org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:981) 在 org.apache.hadoop.mapred.JobClient.access$600(JobClient.java:174) 在 org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:897) 在 org.apache.hadoop.mapred .JobClient$2.run(JobClient.java:850) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security。 UserGroupInformation.doAs(UserGroupInformation.java:1121) at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850) at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824) at org .apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261) 在 org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:180) 在 org.apache.nutch.crawl.LinkDb.invert(LinkDb .java:151) 在 org.apache.nutch.crawl.Crawl.run(Crawl.java:143) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在 org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

我想了解 nutch 中的“分段”到底是什么?在上述错误的开头,它说“LinkdB:添加段..”它试图做什么?我们在细分什么?

4

1 回答 1

2

Segment是一个分区[hadoop input partition],由nutch运行的map reduce作业创建,从给爬虫的种子URL的输入集开始爬取。

于 2013-03-15T12:03:16.037 回答