15

我正在处理一个大型文本分类项目,我们将文本数据(简单消息)存储在 HBase 中。

我们有两个问题,首先我们想使用 HBase 作为 Mahout 分类器的来源,即 Bayers 和随机森林。

其次,我们希望能够将生成的模型存储在 HBase 中,而不是使用内存中的方法 (InMemoryBayesDatastore),但是随着我们的集合增长,我们遇到了内存利用率问题,并希望测试 HBase 作为一种可行的替代方案。

使用带有 Mahout 的 HBase 以及是否可以将其用作潜在数据源的材料似乎很少。我在具有 InMemory 数据存储的 Java 中使用 Mahout 0.6 核心 API。

做了一些挖掘,我相信有一个 HBase Bayers Datastore 组件 -org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore在此处查看较旧的 JavaDoc:http ://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout -core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html

但是,看看最新的文档,这个功能似乎已经消失了..?https://builds.apache.org/job/Mahout-Quality/javadoc/

我想知道是否仍然可以将 HBase 用作 Bayers 和 RandomForests 的数据源,并且在这方面是否有任何以前的用例?

谢谢!

4

1 回答 1

3

这不是直接可能的,不。你可以恢复这个旧的实现,把它掸掉,可能让它工作起来没有太多麻烦。它确实被删除以瘦身并专注于项目。

当然,您还可以查看以某种形式导出数据,并将其添加到直接支持的表示或存储中。

一般来说,您可以将 HBase 与 Mahout 一起使用,因为 Mahout(大部分)使用 Hadoop,而 Hadoop 可以使用 HBase。这不是这里的情况。这里有一个更直接的集成点,已被弃用。

于 2011-09-26T10:51:35.740 回答