我正在寻找一些关于使用 R 分析大数据的建议——即进入 TB 的数据。
通常,我认为最好对数据进行预处理并仅加载用户需要的信息以执行分析。但是,如果说需要聚合来自大型数据集(例如 200 GB)的信息,我认为首先将数据存储在列数据库而不是面向行的 DBMS 中会更有效。其次,对于 CPU 密集型数据分析,使用 RHadoop / RHIPE 拥有一些分布式计算能力可能是值得的。此外,如果有多个企业用户,实现这些的最佳方法是什么……(比如说 10 位同时研究大型数据集的研究人员)
我在网上找到了一些资源,例如 R 索引、mmap 包,可以在 R 中进行高效计算,但希望从那些实际工作并在企业级实现这些的人那里获得一些反馈。
提前感谢您的建议,
问候。