databricks - 从 Databricks 写入 Synapse (Azure DW) 非常慢

Question

我们正在使用 Databricks 及其 SQL DW 连接器将数据加载到 Synapse 中。我有一个包含 10 000 行和 40 列的数据集。需要7分钟！

使用带有 Polybase 和暂存选项的数据工厂加载相同的数据集需要 27 秒。与批量复制相同。

有什么问题？我错过了一些配置吗？还是照常营业？

连接配置：

df_insert.write .format("com.databricks.spark.sqldw") .option("url", sqlDwUrlSmall) .option("dbtable", t_insert) .option( "forward_spark_azure_storage_credentials","True") .option("tempdir", tempDir) .option("maxStrLength", maxStrLength) .mode("append") .save()

score 1 · Accepted Answer

您可以尝试更改写入语义：Databricks 文档

使用复制写入语义，我能够更快地在 Synapse 中加载数据。

您可以在运行 write 命令之前对其进行配置，方式如下：

spark.conf.set("spark.databricks.sqldw.writeSemantics", "copy")

databricks - 从 Databricks 写入 Synapse (Azure DW) 非常慢

1 回答 1

Related

Reference