apache-spark - 结构化流如何执行单独的流查询（并行或顺序）？

Question

我正在编写一个测试应用程序，它使用来自 Kafka 的 topcis 的消息，然后将数据推送到 S3 和 RDBMS 表中（流程类似于此处介绍的：https ://databricks.com/blog/2017/04/26/processing-data -in-apache-kafka-with-structured-streaming-in-apache-spark-2-2.html）。所以我从 Kafka 读取数据，然后：

每条消息都想保存到 S3
一些消息保存到外部数据库中的表 A（基于过滤条件）
一些其他消息保存到外部数据库中的表 B（其他过滤条件）

所以我有这样的：

Dataset<Row> df = spark
.readStream()
.format("kafka")
.option("kafka.bootstrap.servers", "host1:port1,host2:port2")
.option("subscribe", "topic1,topic2,topic3")
.option("startingOffsets", "earliest")
.load()
.select(from_json(col("value").cast("string"), schema, jsonOptions).alias("parsed_value"))

（请注意，我正在阅读多个 Kafka 主题）。接下来我定义所需的数据集：

Dataset<Row> allMessages = df.select(.....)
Dataset<Row> messagesOfType1 = df.select() //some unique conditions applied on JSON elements
Dataset<Row> messagesOfType2 = df.select() //some other unique conditions

现在为每个数据集创建查询以开始处理：

StreamingQuery s3Query = allMessages
.writeStream()
.format("parquet")
.option("startingOffsets", "latest")
.option("path", "s3_location")
.start()

StreamingQuery firstQuery = messagesOfType1
.writeStream()
.foreach(new CustomForEachWiriterType1()) // class that extends ForeachWriter[T] and save data into external RDBMS table
.start();

StreamingQuery secondQuery = messagesOfType2
.writeStream()
.foreach(new CustomForEachWiriterType2()) // class that extends ForeachWriter[T] and save data into external RDBMS table (may be even another database than before)
.start();

现在我想知道：

这些查询是否会并行执行（或按 FIFO 顺序一个接一个地执行，我应该将这些查询分配给单独的调度程序池）？

score 9 · Accepted Answer

将是那些并行执行的查询

是的。这些查询将并行执行（trigger您未指定的每个查询，因此要尽可能快地运行它们）。

在内部，当您start在DataStreamWriter上执行时，您会创建一个StreamExecution，然后立即创建所谓的守护程序microBatchThread（引自下面的 Spark 源代码）：

  val microBatchThread =
    new StreamExecutionThread(s"stream execution thread for $prettyIdString") {
      override def run(): Unit = {
        // To fix call site like "run at <unknown>:0", we bridge the call site from the caller
        // thread to this micro batch thread
        sparkSession.sparkContext.setCallSite(callSite)
        runBatches()
      }
    }

您可以在其自己的线程中看到每个查询的名称：

stream execution thread for [prettyIdString]

您可以使用jstack或jconsole检查单独的线程。

apache-spark - 结构化流如何执行单独的流查询（并行或顺序）？

1 回答 1

Related

Reference