我正在尝试在我的 ubuntu 桌面上设置和运行 apache nutch 2.2.1。作为一个新手,我发现官网给出的教程的某些部分有些混乱。
如果我要在自己的桌面上运行它,是否正确
$NUTCH_HOME/runtime/local
运行 bin/nutch 命令?
我应该把名为 urls 的文件放在哪里?(其中有一个种子列表seed.txt)是不是在
$NUTCH_HOME/runtime/local
如果我在正确的目录中,我在执行命令时遇到了这个问题
bin/nutch crawl urls -dir crawl -depth 1
InjectorJob:使用类 org.apache.gora.memory.store.MemStore 作为 Gora 存储类。InjectorJob:过滤器拒绝的 url 总数:0 InjectorJob:规范化和过滤后注入的 url 总数:0 线程“main”java.lang.RuntimeException 中的异常:作业失败:name=generate:null,jobid=job_local1613558008_0002 at org .apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54) 在 org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199) 在 org.apache.nutch.crawl.Crawler.runTool(Crawler .java:68) 在 org.apache.nutch.crawl.Crawler.run(Crawler.java:152) 在 org.apache.nutch.crawl.Crawler.run(Crawler.java:250) 在 org.apache.hadoop。 org.apache.nutch.crawl.Crawler.main(Crawler.java:257) 上的 util.ToolRunner.run(ToolRunner.java:65)
我正在关注教程 1 http://wiki.apache.org/nutch/NutchTutorial直到 3.3 并且尚未配置 GORA Hbase 等。似乎出现此问题是因为注入器没有获取 url。有谁知道如何解决这个问题?非常感谢!