我在 hdfs 中有一个非常大的 hadoop 序列文件。从中获取数据的最佳方法是什么?即,选择记录等。
可以通过蜂巢完成吗?如何从序列文件在 hive 中创建表?
谢谢
如果您需要“快速”访问数据,您应该考虑将数据加载到某种数据存储中(DB 或 noSQL 存储,例如 HBase、Accumulo)。
另一种选择(如果您可以重写数据)是使用MapFile进行研究- 这会为序列文件中的键创建索引,并与完整文件扫描相比提供更快的数据访问。
否则,如果你想使用 Hive,hive 邮件列表上有一个关于这个确切主题的线程: