我是一名数学家,偶尔会做一些统计/机器学习分析咨询项目。我可以访问的数据通常较小,最多几百兆字节(而且几乎总是少得多),但我想了解更多关于处理和分析千兆字节/兆字节规模的数据。我需要知道什么,有什么好的资源可以学习?
- Hadoop/MapReduce 是一个明显的开始。
- 我应该学习一种特定的编程语言吗?(我现在主要使用 Python、Ruby、R,偶尔使用 Java,但似乎 C 和 Clojure 经常用于大规模数据分析?)
- 我对整个 NoSQL 运动并不十分熟悉,除了它与大数据有关。什么是学习它的好地方,是否有我应该熟悉的特定实现(Cassandra、CouchDB 等)?
- 我在哪里可以了解如何将机器学习算法应用于海量数据?我的数学背景主要是在理论方面,绝对不是在数值或近似方面,而且我猜大多数标准 ML 算法并没有真正扩展。
- 任何其他关于要学习的东西的建议都会很棒!