r - R 和大数据分析

翻译自：https://stackoverflow.com/questions/15746369 2013-04-01T15:31:56.287

906 次

我正在寻找一些关于使用 R 分析大数据的建议——即进入 TB 的数据。

通常，我认为最好对数据进行预处理并仅加载用户需要的信息以执行分析。但是，如果说需要聚合来自大型数据集（例如 200 GB）的信息，我认为首先将数据存储在列数据库而不是面向行的 DBMS 中会更有效。其次，对于 CPU 密集型数据分析，使用 RHadoop / RHIPE 拥有一些分布式计算能力可能是值得的。此外，如果有多个企业用户，实现这些的最佳方法是什么……（比如说 10 位同时研究大型数据集的研究人员）

我在网上找到了一些资源，例如 R 索引、mmap 包，可以在 R 中进行高效计算，但希望从那些实际工作并在企业级实现这些的人那里获得一些反馈。

提前感谢您的建议，

问候。

r - R 和大数据分析

0 回答 0

Related

Reference