我在理解 Delta 表、Delta 事务日志和 Delta 文件时遇到了严重问题。
问题:
- 增量表是什么以及在哪里。我不明白它们是在元存储(hive)中,还是在对象存储(s3)中或两者中。
- 增量文件是什么以及在哪里。同样的情况,我不明白什么是增量文件。我可以在 Hive(多个)和 /tmp 文件夹中看到一个镶木地板文件。
这是我从阅读信息中恢复的。
增量表
- 包含基础文件位置路径
- 表属性
- 表架构定义
- 保存在元存储中(即 Apache Hive)
增量事务日志
- 存储每个执行的事务。
- 增量表更改的单一事实来源
- 启用 ACID 属性,从而实现时间旅行和版本控制
增量文件
- 事务日志文件
- 原子单位 - 提交
- 存储在云对象存储(AWS、MS Azure、GCP)或文件系统(HDFS)中
- 纯数据文件(Apache Parquet / OCR)或分区文件夹(年-月-日)
三角洲引擎(付费)
- SQL 和 DataFrame 的性能优化
我不知道如何理解这个..