0

我想存储许多对象,然后再处理它们。(用数据做统计)

现在,我做了什么:

  • 我已经用 Thrift 序列化了每个文件一个对象。(1 个节俭对象 = 1 个二进制文件)

  • 我还将节俭对象转换为 Parquet 文件。(我很惊讶,因为我的 thrift 二进制文件大约为 1 KB,而 parquet 文件为相同的数据做了 140 KB!)

那么,对你来说,最好的方法是什么?

1) 将 Parquet 文件与 Impala 一起使用?

2) 将 Thrift 文件与 ..I don't know.. 一起使用?(以及如何序列化同一个文件中的许多对象以获得更大的文件,我读取文件必须非常大才能有效)

3) 猪?蜂巢?和 .. ?

4) ... ?

我想使用 HDFS 来存储我的文件。

我使用 Ruby 创建 Thrift 文件,并使用 Java 将其转换为 Parquet 文件。

必须使用 MapReduce 吗?以后可以用吗?

谢谢 !

4

0 回答 0