关于我的个人资料 - 我正在为在我们的集群上运行的一些 BDE Informatica 摄取作业提供 L3 支持。我们的目标是帮助应用程序团队满足 SLA。我们支持在 Hadoop 层 (Hive) 之上运行的作业流。
问题陈述 - 我们观察到,有时 BDE Informatica 摄取作业运行缓慢,有时它们在 3 小时内完成周期。如果这项工作花费了这么多时间,我们通常会杀死并重新运行这对我们有帮助,但这并不能帮助我们解决根本原因。
我们个人资料的限制 - 不幸的是,我没有应用程序代码或 Informatica 工具,但我必须与开发团队联系并提出相关问题,以便我们可以缩小根本原因。
下一步 -
- 什么样的情况会导致这种延迟?
- 我可以使用哪些工具来检查可能导致延迟的原因?
- 我可能会问开发团队的几个可能问题是 -
- 在运行作业流之前是否正确分析了表格?
- 数据量是否有任何显着变化(这不太可能,因为作业在重新运行时会快速运行)?
我知道这是一个非常广泛的问题,并且正在寻求方法上的帮助,而不是任何解决特定问题的方法,但这只是帮助永久解决此问题或以合理方式解决此问题的开始。