pyspark - pyspark - 如何在 GCP 上托管的 dataproc 中运行和安排流式传输作业

问问题 2021-02-17T17:52:26.807

94 次

我正在尝试使用 pyspark 代码从增量表中流式传输数据，并在每个周期之间以 10-15 分钟的间隔连续对最终增量目标执行合并。

我编写了一个简单的 pyspark 代码并使用命令“spark-submit gs://<pyspark_script>>.py”在 spark shell 中提交作业。但是，该脚本运行一次并且不占用下一个周期。

代码示例：

SourceDF.writeStream
  .format("delta")
  .outputMode("append") -- I have also tried "update"
  .foreachBatch(mergeToDelta)
  .option("checkpointLocation","gs:<<path_for_the_checkpint_location>>")
  .trigger(processingTime="10 minutes") -- I have tried continuous='10 minutes"
  .start()

如何在谷歌云中的 dataproc 中提交 Spark 作业以进行连续流式传输？

流式作业的源和目标都是增量表。

pyspark - pyspark - 如何在 GCP 上托管的 dataproc 中运行和安排流式传输作业

0 回答 0

Related

Reference