在 Azure 映射数据流中,我们现在可以选择以增量格式保存文件。但这仅在我们选择内联数据集(没有数据块订阅)时可用。并且当 sink 数据集是 inline 数据集时,它不允许基于任何列设置分区。
我可以编写 pyspark 代码来重写具有所需分区的增量表。但这会产生额外的费用。
有什么办法可以在增量数据上获得良好的性能?
在 Azure 映射数据流中,我们现在可以选择以增量格式保存文件。但这仅在我们选择内联数据集(没有数据块订阅)时可用。并且当 sink 数据集是 inline 数据集时,它不允许基于任何列设置分区。
我可以编写 pyspark 代码来重写具有所需分区的增量表。但这会产生额外的费用。
有什么办法可以在增量数据上获得良好的性能?
工程团队最近修复了一个 UI 问题。直到这反映在你的最后。
您可以执行以下操作作为解决方法:
选项1 :
您可以将接收器的类型更改为其他类型,例如分隔文本接收器,然后您应该会在键分区中看到键列。然后,将 Sink 类型切换回 Delta。
参考: https ://docs.microsoft.com/en-us/answers/questions/599075/index.html
选项 2: 您可以在源端启用分区。
分区数据以流的形式流动。结果,我能够实现分区数据