2

我正在研究几种“事务性数据湖”技术,例如 Apache Hudi、Delta Lake、AWS Lake Formation Governed Tables。

除了后者,我看不出它们在多集群环境中是如何工作的。我以 s3 为存储基准,并希望逐步更改我的数据湖,在任何给定时间,我可能有许多集群都从湖中读取和写入。这可能/支持吗?看起来压缩和事务过程是在集群上的。因此,您无法使用来自多个不同来源的这些平台来管理事务数据湖。还是我弄错了?

您发现的任何轶事或性能限制将不胜感激!

4

0 回答 0