我正在处理一个大型文本分类项目,我们将文本数据(简单消息)存储在 HBase 中。
我们有两个问题,首先我们想使用 HBase 作为 Mahout 分类器的来源,即 Bayers 和随机森林。
其次,我们希望能够将生成的模型存储在 HBase 中,而不是使用内存中的方法 (InMemoryBayesDatastore),但是随着我们的集合增长,我们遇到了内存利用率问题,并希望测试 HBase 作为一种可行的替代方案。
使用带有 Mahout 的 HBase 以及是否可以将其用作潜在数据源的材料似乎很少。我在具有 InMemory 数据存储的 Java 中使用 Mahout 0.6 核心 API。
做了一些挖掘,我相信有一个 HBase Bayers Datastore 组件 -org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore
在此处查看较旧的 JavaDoc:http ://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout -core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html
但是,看看最新的文档,这个功能似乎已经消失了..?https://builds.apache.org/job/Mahout-Quality/javadoc/
我想知道是否仍然可以将 HBase 用作 Bayers 和 RandomForests 的数据源,并且在这方面是否有任何以前的用例?
谢谢!