我是猪的新手。
我在 pig 中编写了一个小脚本,其中我首先从两个不同的表中加载数据并进一步右外连接这两个表,然后我还有下一个表连接两个不同的 st 数据。它工作正常。但我想看看执行的步骤,比如我的数据是在哪一步加载的,我可以记下加载数据加入步骤的后续细节所需的时间,比如加入这些记录需要多少时间。
基本上我想知道我的猪脚本的哪一部分需要更长的时间来运行,这样我就可以进一步优化我的猪脚本。
无论如何,我们可以在脚本中 println 并找出执行了哪些步骤已经开始执行。
通过 jobtracker 详细信息链接,我无法获得太多信息,只能看到 mapper 正在运行并且 reducer 正在运行,但理想情况下,脚本的哪一部分正在运行的 mapper 找不到。
例如,对于 hive 作业运行,我们可以在 jobtracker 详细信息链接中查看当前正在执行哪个步骤。
任何信息都会非常有帮助。
提前致谢 。