我已经为自己设置了 Amazon Elastic MapReduce,以便执行各种标准机器学习任务。过去我曾广泛使用 Python 进行本地机器学习,但我不懂 Java。
据我所知,没有用于分布式机器学习的开发良好的 Python 库。另一方面,Java 有Apache Mahout和来自 Cloudera的较新的Oryx 。
从本质上讲,我似乎必须在两个选项之间做出选择。通过并行化我自己的算法以与Hadoop 流或 Hadoop 的Python 包装器之一一起使用,直到存在体面的库或跳转到 Java,以便我可以使用 Mahout/Oryx。编写自己的 MapReduce 字数统计代码和编写自己的 MapReduce SVM 之间有天壤之别!即使在像这样的优秀教程的帮助下。
我不知道哪个是更明智的选择,所以我的问题是:
A)我错过了一些有用的 Python 库吗?如果没有,您知道是否有任何在不久的将来有用的开发中?
B)如果上述问题的答案是否定的,那么我的时间是否会更好地花在跳槽到 Java 上?