14

我正在阅读有关lakeFS 的文档,现在还不清楚什么是合并甚至合并冲突就lakeFS 而言。

假设我使用 Apache Hudi 对单个表进行 ACID 支持。我想介绍多表 ACID 支持,为此我想将 LakeFS 与 Hudi 一起使用。

如果我正确理解了所有内容,那么lakeFS 是一个与数据无关的解决方案,并且对数据本身一无所知。LakeFS 仅建立边界(版本控制)并以某种方式调节对数据的并发访问。

所以合理的问题是 - 如果lakeFS 与数据无关,它如何支持合并操作?就lakeFS而言,合并本身意味着什么?那里有可能发生合并冲突吗?

4

1 回答 1

6

您确实正确理解了一切。您可以在 分支模型页面中看到,lakeFS 当前与数据无关,仅依赖于分层目录结构。当两个分支更新同一个文件时会发生冲突。这种行为适合大多数数据工程师 CI/CD 用例。

如果您使用 Delta Lake 并从两个不同的分支对同一个表进行了更改,那么仍然会有冲突,因为这两个分支更改了日志文件。为了解决冲突,您需要放弃其中一个变更集。诚然,这不是最好的用户体验,目前正在努力。您可以在路线图文档中阅读更多相关信息。

于 2021-10-04T10:44:06.390 回答