1

Spark 2.2.0 检查点的工作方式与版本略有不同。有一个被创建的提交文件夹,在每批完成后,一个文件被写入该文件夹。

我面临这样一种情况,我有大约 10k 条记录,并且说我的流式传输作业在处理 5k 条记录后大约在中间失败,没有文件写入检查点目录中的提交文件夹,因此当我重新启动作业时,它从头开始,有 5k 条记录的数据重复。

据我了解,当有提交文件被写入时,当你重新启动它时,它会从最新的偏移量中获取,否则它会重新处理最后一个成功批处理中的数据。

如何设置批量处理的单据数量?

4

1 回答 1

1

有没有办法可以设置批处理中要处理的文档数量?

用于maxFilesPerTrigger文件和maxOffsetsPerTrigger格式kafka

于 2017-07-20T19:52:59.640 回答