我是 ORC 文件的新手。我浏览了很多博客,但没有得到清晰的理解。请帮助并澄清以下问题。
我可以从 ORC 文件中获取架构吗?我知道在 Avro 中,可以获取模式。
它实际上是如何提供模式演变的?我知道可以添加几列。但是怎么做。我唯一知道的是,创建 orc 文件是将数据加载到以 orc 格式存储数据的 hive 表中。
ORC 文件索引如何工作?我所知道的是每个条带索引都会被维护。但是由于文件未排序,它如何帮助在条纹列表中查找数据。它如何帮助在查找数据时跳过条带?
是否为每一列维护索引。如果是,那么它不会消耗更多内存吗?
列格式 ORC 文件如何适合 hive 表,其中每列的值存储在一起。而 hive 表是按记录获取的。两者将如何结合在一起?