我尝试在我的服务器上部署 hadoop,然后使用本教程构建nutch1.5.1 在 hadoop 上运行 nutch。我在日志文件中没有收到任何错误消息,但 crawlDB 无法更新任何 url,因此 crawlDB 始终具有 init url。
在我的开发环境中,我运行 org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3 它工作正常。
在我的服务器端,我运行类似这样的脚本:
./runtime/deploy/bin/nutch crawl urls -dir crawl -depth 3 -topN 5
我在 HDFS 中复制的 urls 文件。
我需要配置一些东西吗?