2

我们正在使用 Databricks 及其 SQL DW 连接器将数据加载到 Synapse 中。我有一个包含 10 000 行和 40 列的数据集。需要7分钟!

使用带有 Polybase 和暂存选项的数据工厂加载相同的数据集需要 27 秒。与批量复制相同。

有什么问题?我错过了一些配置吗?还是照常营业?

连接配置:

df_insert.write .format("com.databricks.spark.sqldw") .option("url", sqlDwUrlSmall) .option("dbtable", t_insert) .option( "forward_spark_azure_storage_credentials","True") .option("tempdir", tempDir) .option("maxStrLength", maxStrLength) .mode("append") .save()
4

1 回答 1

1

您可以尝试更改写入语义:Databricks 文档

使用复制写入语义,我能够更快地在 Synapse 中加载数据。

您可以在运行 write 命令之前对其进行配置,方式如下:

spark.conf.set("spark.databricks.sqldw.writeSemantics", "copy")
于 2020-10-04T14:09:08.123 回答