0

关于我的个人资料 - 我正在为在我们的集群上运行的一些 BDE Informatica 摄取作业提供 L3 支持。我们的目标是帮助应用程序团队满足 SLA。我们支持在 Hadoop 层 (Hive) 之上运行的作业流。

问题陈述 - 我们观察到,有时 BDE Informatica 摄取作业运行缓慢,有时它们在 3 小时内完成周期。如果这项工作花费了这么多时间,我们通常会杀死并重新运行这对我们有帮助,但这并不能帮助我们解决根本原因。

我们个人资料的限制 - 不幸的是,我没有应用程序代码或 Informatica 工具,但我必须与开发团队联系并提出相关问题,以便我们可以缩小根本原因。

下一步 -

  • 什么样的情况会导致这种延迟?
  • 我可以使用哪些工具来检查可能导致延迟的原因?
  • 我可能会问开发团队的几个可能问题是 -
    1. 在运行作业流之前是否正确分析了表格?
    2. 数据量是否有任何显着变化(这不太可能,因为作业在重新运行时会快速运行)?

我知道这是一个非常广泛的问题,并且正在寻求方法上的帮助,而不是任何解决特定问题的方法,但这只是帮助永久解决此问题或以合理方式解决此问题的开始。

4

1 回答 1

1

您需要检查 Informatica 日志以查看它是否每次都在同一步骤中挂起。

假设不是,您是否每天都在同一时间触发工作......比如说午夜,它通常在凌晨 3 点完成......但有时它会运行到上午 10 点,在那里你杀死并重新启动?

如果是这样,我建议您在最小负载下、3 小时快速运行期间和 10 小时负载期间对存储介质活动进行基准测试。需求有区别吗?

这听起来像是一场争论,但这会导致冲突。当所需资源可用时,进程可能会永远等待而不是恢复。与 DBA 交谈。

于 2018-12-13T17:20:52.967 回答