我正在尝试通过创建具有已知值的微小输入增量表来为我们的 spark 逻辑编写一些测试用例。但是我注意到创建单个项目增量表需要很长时间,每个表大约 6 秒。这很快就会增加,一些使用多个表的测试用例需要几分钟才能运行!
我接受火花测试也将是缓慢的一面,但类似的镶木地板测试的创建速度约为 400 毫秒,这是可以容忍的
我在 Windows 上的这些测试中运行这些可能会导致我的问题,但其他格式似乎运行良好且速度快几个数量级
我用来生成计时的测试用例是
"delta" should "create in a reasonable time" in {
val spark: SparkSession = SparkSession.builder
.master("local[1]")
.getOrCreate()
import spark.implicits._
// This takes ~15seconds but most of that can be attributed to spark warming up
val preloadStart = System.currentTimeMillis()
Seq(("test-1", "my-test"))
.toDF("Id", "Source")
.write
.format("delta")
.save(s"c:/tmp/test-${java.util.UUID.randomUUID()}")
val preloadEnd = System.currentTimeMillis()
println("Preload Elapsed time: " + (preloadEnd - preloadStart) + "ms")
//actual test, why does this take ~6seconds?!?
val testStart = System.currentTimeMillis()
Seq(("test-2", "my-test"))
.toDF("Id", "Source")
.write
.format("delta")
.save(s"c:/tmp/test-${java.util.UUID.randomUUID()}")
val testEnd = System.currentTimeMillis()
println("Test Elapsed time: " + (testEnd - testStart) + "ms")
}
是否有我缺少的配置值或其他方式来加快增量表的创建?