0

在 Azure 映射数据流中,我们现在可以选择以增量格式保存文件。但这仅在我们选择内联数据集(没有数据块订阅)时可用。并且当 sink 数据集是 inline 数据集时,它不允许基于任何列设置分区。

我可以编写 pyspark 代码来重写具有所需分区的增量表。但这会产生额外的费用。

有什么办法可以在增量数据上获得良好的性能?

4

1 回答 1

0

工程团队最近修复了一个 UI 问题。直到这反映在你的最后。

您可以执行以下操作作为解决方法:

选项1 :

您可以将接收器的类型更改为其他类型,例如分隔文本接收器,然后您应该会在键分区中看到键列。然后,将 Sink 类型切换回 Delta。

参考: https ://docs.microsoft.com/en-us/answers/questions/599075/index.html

选项 2: 您可以在源端启用分区。

在此处输入图像描述

分区数据以流的形式流动。结果,我能够实现分区数据

于 2021-10-28T03:18:59.873 回答