web-crawler - 用 nutch 爬行时出错

Question

我试图用 nutch 抓取网站并得到这个错误：

java.net.MalformedURLException: no protocol:
    Exception in thread "main" java.io.IOException: Job failed!
            at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1265)
            at org.apache.nutch.crawl.Injector.inject(Injector.java:296)
            at org.apache.nutch.crawl.Crawl.run(Crawl.java:127)
            at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
            at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

score 0 · Accepted Answer

检查你的种子清单。运行注入器作业时发生此错误。可能是由于您的种子列表。您的种子网址应如下所示：http://www.example.com。您必须将协议添加为 "http//" 。

web-crawler - 用 nutch 爬行时出错

1 回答 1

Related

Reference