hadoop - hadoop - 从非常大的序列文件中获取数据的最佳方法是什么？

Question

我在 hdfs 中有一个非常大的 hadoop 序列文件。从中获取数据的最佳方法是什么？即，选择记录等。

可以通过蜂巢完成吗？如何从序列文件在 hive 中创建表？

谢谢

score 0 · Accepted Answer

如果您需要“快速”访问数据，您应该考虑将数据加载到某种数据存储中（DB 或 noSQL 存储，例如 HBase、Accumulo）。

另一种选择（如果您可以重写数据）是使用MapFile进行研究- 这会为序列文件中的键创建索引，并与完整文件扫描相比提供更快的数据访问。

否则，如果你想使用 Hive，hive 邮件列表上有一个关于这个确切主题的线程：

1 回答 1