Spark 2.2.0 检查点的工作方式与版本略有不同。有一个被创建的提交文件夹,在每批完成后,一个文件被写入该文件夹。
我面临这样一种情况,我有大约 10k 条记录,并且说我的流式传输作业在处理 5k 条记录后大约在中间失败,没有文件写入检查点目录中的提交文件夹,因此当我重新启动作业时,它从头开始,有 5k 条记录的数据重复。
据我了解,当有提交文件被写入时,当你重新启动它时,它会从最新的偏移量中获取,否则它会重新处理最后一个成功批处理中的数据。
如何设置批量处理的单据数量?
Spark 2.2.0 检查点的工作方式与版本略有不同。有一个被创建的提交文件夹,在每批完成后,一个文件被写入该文件夹。
我面临这样一种情况,我有大约 10k 条记录,并且说我的流式传输作业在处理 5k 条记录后大约在中间失败,没有文件写入检查点目录中的提交文件夹,因此当我重新启动作业时,它从头开始,有 5k 条记录的数据重复。
据我了解,当有提交文件被写入时,当你重新启动它时,它会从最新的偏移量中获取,否则它会重新处理最后一个成功批处理中的数据。
如何设置批量处理的单据数量?