我正在使用 SQL 笔记本在 Azure Data Bricks 中运行以下 SQL 查询,它运行 40 秒,而相同的查询在 Azure DB 中运行 4 秒。如何使查询在 Azure Data Bricks 中运行得更快。我使用了以下方法连接 Azure DB 和 Data Bricks 之间的表
-- Create Table
CREATE TABLE SalesRep
USING org.apache.spark.sql.jdbc
OPTIONS (
url 'jdbc:sqlserver://#SERVERNAME#.database.windows.net:1433;database=AdventureWorksLT',
dbtable 'SalesLT.SalesRep',
user '#USERNAME#',
password "#PASSWORD#"
);
sql查询
select i.*
FROM
Invoice I
INNER JOIN InvoiceLineItem ILT ON I.InvoiceRecordId=ILT.InvoiceRecordId
INNER JOIN part ON part.[parent part]=ILT.PartNumber
WHERE
part.[item nbr] ='12X-33-xx'
我们是否可以在 Azure Data Bricks 中创建索引,因为在 azure db 中运行的查询正在使用该索引查询速度更快是否有任何替代方法可以在 azure databricks 中建立索引,或者是否有任何其他原因导致数据块中的性能缓慢
Cluster configuration
Databricks Runtime Version
4.1 (includes Apache Spark 2.3.0, Scala 2.11)
Python Version
3
Driver Type
28.0 GB Memory, 8 Cores, 1.5 DBU Standard_DS4_v2
Worker Type
112.0 GB Memory, 16 Cores, 4 DBU Standard_DS14_v2
Min Workers
1
Max Workers
15