0

我在理解 Delta 表、Delta 事务日志和 Delta 文件时遇到了严重问题。

问题:

  • 增量表是什么以及在哪里。我不明白它们是在元存储(hive)中,还是在对象存储(s3)中或两者中。
  • 增量文件是什么以及在哪里。同样的情况,我不明白什么是增量文件。我可以在 Hive(多个)和 /tmp 文件夹中看到一个镶木地板文件。

这是我从阅读信息中恢复的。

  • 增量表

    • 包含基础文件位置路径
    • 表属性
    • 表架构定义
    • 保存在元存储中(即 Apache Hive)
  • 增量事务日志

    • 存储每个执行的事务。
    • 增量表更改的单一事实来源
    • 启用 ACID 属性,从而实现时间旅行和版本控制
  • 增量文件

    • 事务日志文件
    • 原子单位 - 提交
    • 存储在云对象存储(AWS、MS Azure、GCP)或文件系统(HDFS)中
    • 纯数据文件(Apache Parquet / OCR)或分区文件夹(年-月-日)
  • 三角洲引擎(付费)

    • SQL 和 DataFrame 的性能优化

我不知道如何理解这个..

4

0 回答 0