2

在 Google Cloud Dataflow 上运行机器学习算法的最佳方式是什么?我可以想象使用 Mahout 将是一种选择,因为它是基于 Java 的。

答案可能是否定的,但有没有办法调用基于 R 或 Python(对算法的强大支持)的脚本来卸载 ML 执行?

-Girish

4

2 回答 2

1

您已经可以根据数据流转换实现许多算法。

可能不太容易实现的一类算法是迭代算法,其中管道的执行图取决于数据本身。简化迭代算法的实现是我们感兴趣的事情,您可以期待该领域未来的改进和简化。

从 Dataflow 管道调用 Python(或任何其他)可执行文件应该不难。例如,ParDo 可以脱壳并启动任意进程。例如,您可以使用--filesToStage管道选项将其他文件添加到 Dataflow 工作环境。

于 2015-10-20T17:42:26.740 回答
0

还有http://quickml.org/(个人没用过)和Weka。我记得文档提到可以从工作中启动一个新流程,但不推荐 AFAIK。

于 2015-10-14T16:34:32.017 回答