performance - Informatica BDE 摄取作业运行 10 多个小时，当被终止并重新运行时，在 3 小时内完成

Question

关于我的个人资料 - 我正在为在我们的集群上运行的一些 BDE Informatica 摄取作业提供 L3 支持。我们的目标是帮助应用程序团队满足 SLA。我们支持在 Hadoop 层 (Hive) 之上运行的作业流。

问题陈述 - 我们观察到，有时 BDE Informatica 摄取作业运行缓慢，有时它们在 3 小时内完成周期。如果这项工作花费了这么多时间，我们通常会杀死并重新运行这对我们有帮助，但这并不能帮助我们解决根本原因。

我们个人资料的限制 - 不幸的是，我没有应用程序代码或 Informatica 工具，但我必须与开发团队联系并提出相关问题，以便我们可以缩小根本原因。

下一步 -

什么样的情况会导致这种延迟？
我可以使用哪些工具来检查可能导致延迟的原因？
我可能会问开发团队的几个可能问题是 -
1. 在运行作业流之前是否正确分析了表格？
2. 数据量是否有任何显着变化（这不太可能，因为作业在重新运行时会快速运行）？

我知道这是一个非常广泛的问题，并且正在寻求方法上的帮助，而不是任何解决特定问题的方法，但这只是帮助永久解决此问题或以合理方式解决此问题的开始。

score 1 · Accepted Answer

您需要检查 Informatica 日志以查看它是否每次都在同一步骤中挂起。

假设不是，您是否每天都在同一时间触发工作......比如说午夜，它通常在凌晨 3 点完成......但有时它会运行到上午 10 点，在那里你杀死并重新启动？

如果是这样，我建议您在最小负载下、3 小时快速运行期间和 10 小时负载期间对存储介质活动进行基准测试。需求有区别吗？

这听起来像是一场争论，但这会导致冲突。当所需资源可用时，进程可能会永远等待而不是恢复。与 DBA 交谈。

1 回答 1