3

我想使用 Mahout 决策树训练过程的输出模型作为基于 Weka 的分类器的输入模型。

由于基于数百万训练记录的复杂决策树的训练对于单节点 Weka 分类器几乎是不切实际的,我想使用 Mahout 来构建模型,例如使用Random Forest Partial Implementation

虽然上述算法在训练时可能会出现问题,但在单台机器上使用 Weka 进行预测相当简单。

在 Mahout wiki 站点上,声明用于导入的数据格式包括 Weka ARFF 格式,但不用于导出。

是否可以使用Mahout 中的一些现有实现来训练将在基于Weka 的简单系统的生产中使用的模型?

4

1 回答 1

1

我认为不可能按照您的要求进行操作:.arff 是一种数据格式,导入/导出菜单中的所有其他选项也是如此。Weka 可以保存/加载的分类器实际上是 Weka 的 java对象,使用 Java 的接口Classifier写入文件。Serializable它们不是可移植的树,因为它们是比创建它们的 JVM 更持久的 Java 对象。因此,为了做你想做的事,Mahout 或 Weka 都必须能够生成/读取彼此的代码,而这不是我能找到任何文档的东西。

我的经验是,有几百万条训练记录(每个包含约 45 个数字特征/列),使用默认选项的 Weka 随机森林实现非常快(在单个 2.26GHz 内核上以秒为单位运行),因此可能没有必要打扰 Mahout。不过,您的数据集很可能有不同的结果。

于 2012-05-25T17:51:59.657 回答