我目前已经在 Hadoop 中实现,这是 Google 用于构建决策树的框架(也称为 PLANET)。它从单个顶点开始,随着 map reduce 作业的添加越来越多,直到树完全构建。然而,一个主要问题是大量的 map/reduce 作业一个接一个地运行,因此一直启动新作业的成本非常高。
我已经多次看到 Apache Hama 适用于像图这样的迭代算法。有人可以使用 Hama 构建一个新图,或者您只需输入一个图并对其进行一些计算吗?将我的项目转移到哈马会很容易吗?谢谢
我目前已经在 Hadoop 中实现,这是 Google 用于构建决策树的框架(也称为 PLANET)。它从单个顶点开始,随着 map reduce 作业的添加越来越多,直到树完全构建。然而,一个主要问题是大量的 map/reduce 作业一个接一个地运行,因此一直启动新作业的成本非常高。
我已经多次看到 Apache Hama 适用于像图这样的迭代算法。有人可以使用 Hama 构建一个新图,或者您只需输入一个图并对其进行一些计算吗?将我的项目转移到哈马会很容易吗?谢谢
Hama 确实能够使用 PLANET 论文中描述的算法以比 MapReduce 更有效的方式构建决策树。
Hama 不需要图形作为输入,您可以查看 Hama ML(机器学习)模块,该模块通常处理原始特征向量作为直接来自 HDFS 的输入。
对于 Hama,我在 Apache Jira 中创建了一个新问题来跟踪该算法的进度。