1

我在 hdfs 中有一个非常大的 hadoop 序列文件。从中获取数据的最佳方法是什么?即,选择记录等。

可以通过蜂巢完成吗?如何从序列文件在 hive 中创建表?

谢谢

4

1 回答 1

0

如果您需要“快速”访问数据,您应该考虑将数据加载到某种数据存储中(DB 或 noSQL 存储,例如 HBase、Accumulo)。

另一种选择(如果您可以重写数据)是使用MapFile进行研究- 这会为序列文件中的键创建索引,并与完整文件扫描相比提供更快的数据访问。

否则,如果你想使用 Hive,hive 邮件列表上有一个关于这个确切主题的线程:

于 2012-07-05T23:09:01.910 回答