我对 Spring 有经验,但对 Spring Batch 很陌生。现在我的任务是将数据结构从一个数据库中的简单结构迁移到另一个数据库中的复杂结构。数据结构对应于我将这样命名的对象层次结构
OldParent 1 --> n OldChild // old system
NewParent 1 --> n NewChild // new system
在旧数据库中,只有两个表,在新系统中,事情变得更加复杂,有 8 个表,但现在无关紧要。
基本上我想使用一个简单的基于 JDBC 的解决方案,其中行映射器从 OldParent 读取并转换为 NewParent。
所以这将是一个基本的配置片段:
<batch:job id="migration">
<batch:step id="convertLegacyData">
<batch:tasklet>
<batch:chunk
reader="parentReader"
writer="parentWriter"
commit-interval="200" />
</batch:tasklet>
</batch:step>
</batch:job>
在这种情况下,parentReader 将获取并转换 OldChild 对象,可能委托给 childReader / childWriter 对象。
问题是这样的:虽然有几十万个父母,但每个父母可以有零到几百万个孩子,所以基于父母的提交间隔根本没有帮助,但我非常希望有一个可配置的提交间隔。
因此,另一种解决方案是使工作流程基于子级:
<batch:job id="migration">
<batch:step id="convertLegacyData">
<batch:tasklet>
<batch:chunk
reader="childReader"
writer="childWriter"
commit-interval="200" />
</batch:tasklet>
</batch:step>
</batch:job>
在这种情况下,childReader 还必须读取 OldParent 对象并写入 NewParent,委托给 parentReader 和 parentWriter 对象。这里的主要缺点是我丢失了所有没有关联 OldChild 对象的 OldParents。
第三种可能的情况是为OldParent -> NewParent
和提供两个不同的工作流程OldChild -> NewChild
。(我必须维护一个映射表来存储 OldParent 和 NewParent id 之间的关系,但我可以使用标准配置,包括提交间隔。
还有其他可能性吗?您会推荐以下哪一项作为最佳实践?