我正在尝试在一台 Windows 机器上测试 Nutch 2.1。以下命令死亡:
nutch crawl seeds -dir crawl -solr http://somehost:8983/solr -depth 2 -topN 2
...有几个例外的回溯:
java.net.ConnectionException: Connection refused
GoraException
SQLTransientConnectionException
org.hsqldb.HsqlException
这与这篇文章的问题相同:运行 Nutch 2 时出现连接被拒绝错误
看起来 Nutch 2 想要已经安装了某种数据库,但是在我可以看到的(稀疏)文档中没有提到这一点。
生产环境最终将是一个 linux/Hadoop 集群,但目前我只是试图让一个简单的本地系统开箱即用。
那么简单的 Nutch 数据库有哪些选择呢?你如何告诉 Nutch 和 Gora 关于数据库的事情?一旦我们的 Hadoop 集群启动并运行,HBase 可能是一个很好的答案。然而; 与此同时,是否有一个简单的、甚至很慢的数据库可以在单个系统上进行初步探索?