azure-synapse - 写入增量接收器时对数据进行分区

Question

在 Azure 映射数据流中，我们现在可以选择以增量格式保存文件。但这仅在我们选择内联数据集（没有数据块订阅）时可用。并且当 sink 数据集是 inline 数据集时，它不允许基于任何列设置分区。

我可以编写 pyspark 代码来重写具有所需分区的增量表。但这会产生额外的费用。

有什么办法可以在增量数据上获得良好的性能？

score 0 · Accepted Answer

工程团队最近修复了一个 UI 问题。直到这反映在你的最后。

您可以执行以下操作作为解决方法：

选项1 ：

您可以将接收器的类型更改为其他类型，例如分隔文本接收器，然后您应该会在键分区中看到键列。然后，将 Sink 类型切换回 Delta。

参考： https ://docs.microsoft.com/en-us/answers/questions/599075/index.html

选项 2： 您可以在源端启用分区。

分区数据以流的形式流动。结果，我能够实现分区数据

1 回答 1