在 Spark 3 Behave of backpressure option on Kafka 和 File Source for trigger.once 场景发生了变化。
但我有一个问题。当我想使用 TriggerOnce 时,如何为我的工作配置背压?
在 spark 2.4 我有一个用例,回填一些数据,然后启动流。所以我使用了一次触发器,但我的回填场景可能非常大,有时会因为洗牌和驱动程序内存而在我的磁盘上产生太大的负载,因为 FileIndex 缓存在那里。所以我使用 maxmaxOffsetsPerTrigger
来maxFilesPerTrigger
控制我的 spark 可以处理多少数据。这就是我配置背压的方式。
现在你移除了这个能力,所以假设有人可以提出一个新的方法吗?