我正在尝试使用 Nutch 进行一些爬行,我想测试 Cassandra 作为后端,但是使用最新版本的 nutch 及其依赖项 Cassandra 在您进行注入、生成、获取时会引发各种错误,等过程。
这些错误都与代码中的实际问题有关,而不是内存或配置不足。我已经通过修改 gora-cassandra 中的代码来修复其中的一些问题,但它仍然无法正常工作。
我的问题是,这两个项目的工作版本是否存在?通过工作,我的意思是您可以在至少一小组 url 上运行注入、生成、fech、解析、更新,而不会出错。
以下是在获取期间给出错误的类之一的示例:
org.apache.gora.cassandra.query.CassandraSuperColumn.getUnionIndex 处的 java.lang.NullPointerException
我已经使用 HBase 作为后端并且它只是工作,虽然 HBase 本身是一个需要管理的怪物,所以这就是我想测试 Cassandra 的原因。但是,我即将放弃这一点,因为我认为我不应该仅仅为了运行一个基本示例而修改 gora-cassandra 代码。
谢谢