nutch - Nutch Crawl2.0 错误 - java.io.IOException：作业中未指定输入路径

Question

我尝试使用 nutch 2.0 抓取一些网址，但失败如下：

org.apache.nutch.crawl.Crawler urls -dir crawls -depth 5 -topN 100 线程“主”java.io.IOException 中的异常：在 org.apache.hadoop.mapreduce.lib.input 的作业中未指定输入路径。 FileInputFormat.listStatus(FileInputFormat.java:193) at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:252) at org.apache.gora.mapreduce.GoraMapReduceUtils.getSplits(GoraMapReduceUtils.java: 67) 在 org.apache.gora.mapreduce.GoraInputFormat.getSplits(GoraInputFormat.java:93) 在 org.apache.hadoop.mapred 的 org.apache.gora.store.impl.FileBackedDataStoreBase.getPartitions(FileBackedDataStoreBase.java:148) .JobClient.writeNewSplits(JobClient.java:962) 在 org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:979) 在 org.apache.hadoop.mapred.JobClient.access$600(JobClient.java:174) 在 org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:897) 在 org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850) 在 java.security.AccessController.doPrivileged （本机方法）在 javax.security.auth.Subject.doAs(Subject.java:396) 在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121) 在 org.apache.hadoop.mapred.JobClient .submitJobInternal(JobClient.java:850) 在 org.apache.hadoop.mapreduce.Job.submit(Job.java:500) 在 org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:530) 在 org. apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:43) 在 org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:180) 在 org.apache.nutch.crawl.Crawler.runTool(Crawler. java:68) 在 org.apache.nutch.crawl.Crawler.run(Crawler.java:152) 在 org.apache.nutch。crawl.Crawler.run(Crawler.java:250) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)

谁能帮我？多谢！

nutch - Nutch Crawl2.0 错误 - java.io.IOException：作业中未指定输入路径

0 回答 0

Related

Reference