我有一个 500 MB 的聚合 XML 文件,mlcp 摄取需要 30 秒(大约 80,000 个文档),协调需要大约 6 分钟(在加载到最终数据库之前将每个 XML 文档转换为 JSON)。
协调工作遵循常规数据中心模式(收集器、内容、作者等)
我有 50 个这样的文件要处理并寻找优化运行时间的方法。
1) 有没有一种方法可以启动 mlcp 加载并为多个文件并行协调(在同一个工作中)?
2)在协调工作中,我尝试使用 -PbatchSize 和 -PthreadCount 参数,但它们对批量大小和 6 个线程计数没有超过 500 的影响。如何通过增加这两个值来提高性能?需要任何服务器级别的设置吗?是否有任何其他参数可以帮助提高性能?
3)任何其他替代方案来提高协调步骤的性能?
提前致谢!