apache - Nutch 术语中的“段”到底是什么？

Question

我刚开始使用 Nutch 1.6。我执行了我的初始爬取，该爬取成功，直到遇到以下问题：

LinkDb：添加段：文件：/var/apache-nutch/crawl/segments/2013031234747 LinkDb：添加段：文件：/var/apache-nutch/crawl/segments/2013031250939 线程“主”org.apache.hadoop 中的异常。 mapred.InvalidInputException：输入路径不存在：文件：/var/apache-nutch/crawl/segments/20130308114306/parse_data 输入路径不存在：文件：/var/apache-nutch/crawl/segments/20130312135244/parse_data at org .apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:197) 在 org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:40) 在 org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat .java:208) 在 org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:989) 在 org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:981) 在 org.apache.hadoop.mapred.JobClient.access$600(JobClient.java:174) 在 org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:897) 在 org.apache.hadoop.mapred .JobClient$2.run(JobClient.java:850) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security。 UserGroupInformation.doAs(UserGroupInformation.java:1121) at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850) at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824) at org .apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261) 在 org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:180) 在 org.apache.nutch.crawl.LinkDb.invert(LinkDb .java:151) 在 org.apache.nutch.crawl.Crawl.run(Crawl.java:143) 在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) 在 org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

我想了解 nutch 中的“分段”到底是什么？在上述错误的开头，它说“LinkdB：添加段..”它试图做什么？我们在细分什么？

score 2 · Accepted Answer

Segment是一个分区[hadoop input partition]，由nutch运行的map reduce作业创建，从给爬虫的种子URL的输入集开始爬取。

apache - Nutch 术语中的“段”到底是什么？

1 回答 1

Related

Reference