我有一个要求,我需要处理存储在目录/GCP 中的 400 多个 CSV 文件(每个 100 到 500MB)。
对于每个文件,我需要从 DB 获取有效帐号并将它们保存在内存中,根据内存中的数据验证文件的每一行并将有效记录写入另一个 CSV 文件(列格式更改)并将生成的文件导出到 AWS。将来,希望支持来自 MQ 的请求,并且流程保持不变。
要求是在分布式系统中实现这一点。
我计划使用 Spring Batch 来满足这个要求,但是我无法找到使用不同系统作为 Manager - Worker 进行远程分区的好的示例/代码。我想了解如何配置 Manager、Worker、如何启动它们并将文件元数据作为请求和响应传递。
我得到了单个 JVM 上的分区示例,因此仅使用示例代码寻找 Manager-Worker 示例。
任何建议/参考将不胜感激,并提前致谢。