apache-spark - 如何设置批量处理的文档数量？

Question

Spark 2.2.0 检查点的工作方式与版本略有不同。有一个被创建的提交文件夹，在每批完成后，一个文件被写入该文件夹。

我面临这样一种情况，我有大约 10k 条记录，并且说我的流式传输作业在处理 5k 条记录后大约在中间失败，没有文件写入检查点目录中的提交文件夹，因此当我重新启动作业时，它从头开始，有 5k 条记录的数据重复。

据我了解，当有提交文件被写入时，当你重新启动它时，它会从最新的偏移量中获取，否则它会重新处理最后一个成功批处理中的数据。

如何设置批量处理的单据数量？

score 1 · Accepted Answer

有没有办法可以设置批处理中要处理的文档数量？

用于maxFilesPerTrigger文件和maxOffsetsPerTrigger格式kafka。

1 回答 1