目前,我从 EDW(企业数据仓库)中将大约 10 个表带入 Hadoop,这些表与星型模式模型密切相关。我使用 Sqoop 将所有这些表放在一起,从而产生 10 个包含 csv 文件的目录。
在取消 MR 工作之前,我正在研究有哪些更好的方法来存储这些文件。在从事 MR 工作之前,我应该遵循某种模型还是构建聚合?我基本上是在研究如何将相关数据存储在一起。
我通过搜索发现的大多数东西都是存储琐碎的 csv 文件并使用 opencsv 读取它们。我正在寻找更多涉及的东西,而不仅仅是 csv 文件。如果转向另一种格式比 csv 效果更好,那没问题。
归结为:如何最好地将一堆相关数据存储在 HDFS 中以获得良好的 MR 体验。