1

我正在通过水壶从 mongodb 源加载 mysql 表。Mongodb 表有超过 400 万条记录,当我运行水壶作业时,需要 17 个小时才能完成第一次加载。即使对于增量负载也需要一个多小时。我尝试增加提交大小并为作业提供更多内存,但性能仍然没有提高。我认为JSON输入步骤需要很长时间来解析数据,因此速度很慢。我的转型中有这些步骤

  1. MongoDB输入步骤
  2. json输入
  3. 琴弦剪断
  4. 如果字段值为空
  5. 连接字段
  6. 选择值
  7. 表输出。

从 postgre 中提取相同的 400 万条记录比 mongodb 快得多。有没有办法可以提高性能?请帮我。

谢谢, 迪普蒂

4

1 回答 1

0

运行该步骤的多个副本。听起来你有 mongo 输入,然后是一个 json 输入步骤来解析 json 结果对吗?因此,使用 4 或 8 个 json 输入步骤的副本(或更多,取决于 cpu),它会加快速度。

或者,您是否真的需要解析完整的 json,也许您可​​以通过正则表达式或其他方式提取数据。

于 2013-09-05T07:34:23.780 回答