hadoop - 运行 hive 查询，并收集作业信息

Question

我想运行生成的 HIVE 查询列表。对于每个，我想检索 MR job_id（或 ids，如果是多个阶段）。然后，使用此 job_id，从作业跟踪器收集统计信息（累积 CPU、读取字节......）

如何从 bash 或 python 脚本发送 HIVE 查询，并检索 job_id(s) ？

对于第二部分（收集作业的统计信息），我们使用的是 MRv1 Hadoop 集群，所以我没有AppMaster REST API。我即将从 jobtracker web UI 收集数据。有更好的主意吗？

score 3 · Accepted Answer

您可以通过运行此命令获取执行的作业列表，

hadoop 作业 - 列出所有

然后对于每个作业 ID，您可以使用命令 hadoop job -status job-id 检索统计信息

为了将作业与查询相关联，您可以获取 job_name 并将其与查询匹配。像这样，如何获取当前正在运行的 hadoop 作业的名称？

希望这可以帮助。

1 回答 1