我正在通过水壶从 mongodb 源加载 mysql 表。Mongodb 表有超过 400 万条记录,当我运行水壶作业时,需要 17 个小时才能完成第一次加载。即使对于增量负载也需要一个多小时。我尝试增加提交大小并为作业提供更多内存,但性能仍然没有提高。我认为JSON
输入步骤需要很长时间来解析数据,因此速度很慢。我的转型中有这些步骤
- MongoDB输入步骤
- json输入
- 琴弦剪断
- 如果字段值为空
- 连接字段
- 选择值
- 表输出。
从 postgre 中提取相同的 400 万条记录比 mongodb 快得多。有没有办法可以提高性能?请帮我。
谢谢, 迪普蒂