hadoop - hadoop1.0.3 & nutch1.5.1 无法更新 crawlDB

翻译自：https://stackoverflow.com/questions/12988939 2012-10-20T13:33:33.643

97 次

我尝试在我的服务器上部署 hadoop，然后使用本教程构建nutch1.5.1 在 hadoop 上运行 nutch。我在日志文件中没有收到任何错误消息，但 crawlDB 无法更新任何 url，因此 crawlDB 始终具有 init url。

在我的开发环境中，我运行 org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3 它工作正常。

在我的服务器端，我运行类似这样的脚本：

./runtime/deploy/bin/nutch crawl urls -dir crawl -depth 3 -topN 5

我在 HDFS 中复制的 urls 文件。

我需要配置一些东西吗？

0 回答 0