我正在尝试学习“大数据”,并认为唯一的开始方法就是直接深入研究。值得注意的是,我将使用家里的一台机器。对于上下文,我有大约 700 个文本文件,总计大约 300 GB 的数据。每个文件都包含上个月从 Twitter 的消防站捕获的 JSON 响应。
我喜欢 R,并最终喜欢用它来研究我的数据集,但我知道我需要一种“存储”数据的方法。我听到了很多关于 Hadoop 和 HDFS 的信息,但无法理解它。我是否可以简单地将文本文件“复制”到本地计算机上的 HDFS 并使用RHadoop
编写 Map/Reduce 语句来创建数据集?
最后,我已经启动并运行了 MongoDB,并且正在考虑将数据存储在那里,但我不确定我是否会获得分析性能提升,尽管我知道有一个适用于 Haddop 的适配器。
我的问题:成功捕获数据后,存储数据的最佳方式是什么,以便我可以使用 R(和其他工具)来分析数据。