1

我正在尝试在一台 Windows 机器上测试 Nutch 2.1。以下命令死亡:

nutch crawl seeds -dir crawl -solr http://somehost:8983/solr -depth 2 -topN 2

...有几个例外的回溯:

  • java.net.ConnectionException: Connection refused
  • GoraException
  • SQLTransientConnectionException
  • org.hsqldb.HsqlException

这与这篇文章的问题相同:运行 Nutch 2 时出现连接被拒绝错误

看起来 Nutch 2 想要已经安装了某种数据库,但是在我可以看到的(稀疏)文档中没有提到这一点。

生产环境最终将是一个 linux/Hadoop 集群,但目前我只是试图让一个简单的本地系统开箱即用。

那么简单的 Nutch 数据库有哪些选择呢?你如何告诉 Nutch 和 Gora 关于数据库的事情?一旦我们的 Hadoop 集群启动并运行,HBase 可能是一个很好的答案。然而; 与此同时,是否有一个简单的、甚至很慢的数据库可以在单个系统上进行初步探索?

4

2 回答 2

4

我已经尝试过使用 MYSQL 和 HBASE。

对于 MYSQL,此链接有助于消除大部分怪癖:http ://nlp.solutions.asia/?p=180

对于 HBASE,高于 0.90.x 的版本会导致问题(无效的主机值对)。我已经能够让它与 0.90.5 一起工作

于 2012-11-23T06:31:19.567 回答
3

Nutch 2.1 的数据库连接信息在 conf/gora.properties 文件中指定(应该已经看到)

于 2012-11-21T21:04:49.733 回答