我有一个与 apache flink 相关的问题。目前我正在研究 apache flink 作为我们的工作框架。
本质上,我们有一个内容摄取工作,我们从提要中摄取一些内容,这些内容本质上是分页的。提要的内容可以是 xml 或 json 格式,每页可以有 1000 条记录。
我需要的是把这 1000 条记录分成任务并并行处理。
我知道 flink 有一些方法可以并行化它的工作,但分成任务槽。我想知道我们如何做到这一点,否则任何在线资源将不胜感激。
我看到我们可以使用 setParallelism() 进行设置,但我很难找到一种方法来设置处理。
所以只是给你一个想法..这是一个示例提要
<mainTag>
<subTag>
......
</subTag>
<subTag>
......
</subTag>
<subTag>
....
</subTag>
</mainTag>
现在在上面的 xml 示例中,我想划分并并行处理它。
这类似于我们如何在 java 中使用 ExecutorService 进行多线程处理。
在普通的 java 中,我会执行 executorService.submit(subtagTask) 来处理 subTag。
我想知道在 Flink 中是否有办法做到这一点。这将帮助我避免处理线程的头痛和随之而来的头痛。
任何帮助表示赞赏。
问候。