apache-spark - 测试火花增量表的创建非常慢

Question

我正在尝试通过创建具有已知值的微小输入增量表来为我们的 spark 逻辑编写一些测试用例。但是我注意到创建单个项目增量表需要很长时间，每个表大约 6 秒。这很快就会增加，一些使用多个表的测试用例需要几分钟才能运行！

我接受火花测试也将是缓慢的一面，但类似的镶木地板测试的创建速度约为 400 毫秒，这是可以容忍的

我在 Windows 上的这些测试中运行这些可能会导致我的问题，但其他格式似乎运行良好且速度快几个数量级

我用来生成计时的测试用例是

  "delta" should "create in a reasonable time" in {

    val spark: SparkSession = SparkSession.builder
      .master("local[1]")
      .getOrCreate()

    import spark.implicits._

    // This takes ~15seconds but most of that can be attributed to spark warming up
    val preloadStart = System.currentTimeMillis()
    Seq(("test-1", "my-test"))
      .toDF("Id", "Source")
      .write
      .format("delta")
      .save(s"c:/tmp/test-${java.util.UUID.randomUUID()}")
    val preloadEnd = System.currentTimeMillis()
    println("Preload Elapsed time: " + (preloadEnd - preloadStart) + "ms")

    //actual test, why does this take ~6seconds?!?
    val testStart = System.currentTimeMillis()
    Seq(("test-2", "my-test"))
      .toDF("Id", "Source")
      .write
      .format("delta")
      .save(s"c:/tmp/test-${java.util.UUID.randomUUID()}")
    val testEnd = System.currentTimeMillis()
    println("Test Elapsed time: " + (testEnd - testStart) + "ms")
  }

是否有我缺少的配置值或其他方式来加快增量表的创建？

score 2 · Accepted Answer

Spark 的默认配置不适用于通常发生在单元测试中的小型作业。以下是Delta Lake 在单元测试中使用的配置：

javaOptions in Test ++= Seq(
  "-Dspark.ui.enabled=false",
  "-Dspark.ui.showConsoleProgress=false",
  "-Dspark.databricks.delta.snapshotPartitions=2",
  "-Dspark.sql.shuffle.partitions=5",
  "-Ddelta.log.cacheSize=3",
  "-Dspark.sql.sources.parallelPartitionDiscovery.parallelism=5",
  "-Xmx1024m"
)

您还可以应用相同的配置集来加快测试速度。

apache-spark - 测试火花增量表的创建非常慢

1 回答 1

Related

Reference