我目前正在使用 R 进行分析。
我有大量的 CSV 文件,它们都具有我想使用 R 处理的相同标题。我最初将每个文件顺序读入 R 并将它们绑定在一起,然后再一起执行分析。
需要读入的文件数量正在增长,因此将它们全部保存在内存中以对数据进行操作变得不可行。
我可以在不使用 R 的情况下将所有 CSV 文件组合在一起,因此不会将其保存在内存中。这留下了一个巨大的 CSV 文件,将其转换为 HDFS 是否有意义,以便能够进行相关分析?除此之外......或者单独对每个csv文件进行分析然后最后合并它会更有意义?
我在想可能是一个分布式文件系统,并在亚马逊上使用一组机器来有效地进行分析。
看rmr
这里,它将数据转换为 HDFS,但显然对于真正的大数据来说并不令人惊讶......如何以一种允许有效分析的方式转换 csv?