hadoop - 处理许多对象的最佳方法？

翻译自：https://stackoverflow.com/questions/24260108 2014-06-17T09:23:43.500

196 次

我想存储许多对象，然后再处理它们。（用数据做统计）

现在，我做了什么：

我已经用 Thrift 序列化了每个文件一个对象。（1 个节俭对象 = 1 个二进制文件）

我还将节俭对象转换为 Parquet 文件。（我很惊讶，因为我的 thrift 二进制文件大约为 1 KB，而 parquet 文件为相同的数据做了 140 KB！）

那么，对你来说，最好的方法是什么？

1) 将 Parquet 文件与 Impala 一起使用？

2) 将 Thrift 文件与 ..I don't know.. 一起使用？（以及如何序列化同一个文件中的许多对象以获得更大的文件，我读取文件必须非常大才能有效）

3) 猪？蜂巢？和 .. ？

4) ... ?

我想使用 HDFS 来存储我的文件。

我使用 Ruby 创建 Thrift 文件，并使用 Java 将其转换为 Parquet 文件。

必须使用 MapReduce 吗？以后可以用吗？

谢谢！

0 回答 0