0

我正在尝试使用 Nutch 进行一些爬行,我想测试 Cassandra 作为后端,但是使用最新版本的 nutch 及其依赖项 Cassandra 在您进行注入、生成、获取时会引发各种错误,等过程。

这些错误都与代码中的实际问题有关,而不是内存或配置不足。我已经通过修改 gora-cassandra 中的代码来修复其中的一些问题,但它仍然无法正常工作。

我的问题是,这两个项目的工作版本是否存在?通过工作,我的意思是您可以在至少一小组 url 上运行注入、生成、fech、解析、更新,而不会出错。

以下是在获取期间给出错误的类之一的示例:

org.apache.gora.cassandra.query.CassandraSuperColumn.getUnionIndex 处的 java.lang.NullPointerException

我已经使用 HBase 作为后端并且它只是工作,虽然 HBase 本身是一个需要管理的怪物,所以这就是我想测试 Cassandra 的原因。但是,我即将放弃这一点,因为我认为我不应该仅仅为了运行一个基本示例而修改 gora-cassandra 代码。

谢谢

4

1 回答 1

0

根据此链接,它刚刚损坏,大约 3 个月大http://lucene.472066.n3.nabble.com/Re-user-Digest-3-Jun-2017-19-27-20-0000-Issue- 2758-td4339060.html

不清楚为什么甚至记录了不起作用的后端。

HBase 使用最广泛,其次是 MongoDB ......在光谱的另一端,Cassandra 使用最少且损坏。它已经有一段时间没有维护了……是的,这反映在使用超级列上。我们目前正在重写后端作为 GSoC 项目的一部分。

我同意发表原始声明的那个人,不清楚为什么甚至记录了不起作用的后端。

真的厌倦了这个项目及其缺乏可用的文档。

于 2017-09-29T22:46:19.027 回答