3

我想运行生成的 HIVE 查询列表。对于每个,我想检索 MR job_id(或 ids,如果是多个阶段)。然后,使用此 job_id,从作业跟踪器收集统计信息(累积 CPU、读取字节......)

如何从 bash 或 python 脚本发送 HIVE 查询,并检索 job_id(s) ?

对于第二部分(收集作业的统计信息),我们使用的是 MRv1 Hadoop 集群,所以我没有AppMaster REST API。我即将从 jobtracker web UI 收集数据。有更好的主意吗?

4

1 回答 1

3

您可以通过运行此命令获取执行的作业列表,

hadoop 作业 - 列出所有

然后对于每个作业 ID,您可以使用命令 hadoop job -status job-id 检索统计信息

为了将作业与查询相关联,您可以获取 job_name 并将其与查询匹配。像这样, 如何获取当前正在运行的 hadoop 作业的名称?

希望这可以帮助。

于 2013-02-19T21:57:40.997 回答