我想存储许多对象,然后再处理它们。(用数据做统计)
现在,我做了什么:
我已经用 Thrift 序列化了每个文件一个对象。(1 个节俭对象 = 1 个二进制文件)
我还将节俭对象转换为 Parquet 文件。(我很惊讶,因为我的 thrift 二进制文件大约为 1 KB,而 parquet 文件为相同的数据做了 140 KB!)
那么,对你来说,最好的方法是什么?
1) 将 Parquet 文件与 Impala 一起使用?
2) 将 Thrift 文件与 ..I don't know.. 一起使用?(以及如何序列化同一个文件中的许多对象以获得更大的文件,我读取文件必须非常大才能有效)
3) 猪?蜂巢?和 .. ?
4) ... ?
我想使用 HDFS 来存储我的文件。
我使用 Ruby 创建 Thrift 文件,并使用 Java 将其转换为 Parquet 文件。
必须使用 MapReduce 吗?以后可以用吗?
谢谢 !