我最近开始涉足数据分析,去年我学到了很多东西(目前,几乎完全使用 Python)。我觉得下一步是开始在 MapReduce/Hadoop 中训练自己。但是,我没有接受过正式的计算机科学培训,因此通常不太了解人们撰写有关 Hadoop 时使用的行话,因此我在这里提出问题。
我希望的是 Hadoop 的顶级概述(除非我应该使用其他东西?),也许是对某种教程/教科书的推荐。
例如,如果我想并行化我用 Python 编写的神经网络,我应该从哪里开始?是否有一种相对标准的方法来使用算法实现 Hadoop,或者每个解决方案都非常具体?
Apache wiki 页面将 Hadoop 描述为“在由商品硬件构建的大型集群上运行应用程序的框架”。但这意味着什么?我听说过“Hadoop 集群”这个词,而且我知道 Hadoop 是基于 Java 的。那么这是否意味着对于上面的示例,我需要学习 Java,在一些亚马逊服务器上建立一个 Hadoop 集群,然后 Jython 化我的算法,然后最终让它在使用 Hadoop 的集群上工作?
非常感谢您的帮助!