我想运行生成的 HIVE 查询列表。对于每个,我想检索 MR job_id(或 ids,如果是多个阶段)。然后,使用此 job_id,从作业跟踪器收集统计信息(累积 CPU、读取字节......)
如何从 bash 或 python 脚本发送 HIVE 查询,并检索 job_id(s) ?
对于第二部分(收集作业的统计信息),我们使用的是 MRv1 Hadoop 集群,所以我没有AppMaster REST API。我即将从 jobtracker web UI 收集数据。有更好的主意吗?
我想运行生成的 HIVE 查询列表。对于每个,我想检索 MR job_id(或 ids,如果是多个阶段)。然后,使用此 job_id,从作业跟踪器收集统计信息(累积 CPU、读取字节......)
如何从 bash 或 python 脚本发送 HIVE 查询,并检索 job_id(s) ?
对于第二部分(收集作业的统计信息),我们使用的是 MRv1 Hadoop 集群,所以我没有AppMaster REST API。我即将从 jobtracker web UI 收集数据。有更好的主意吗?
您可以通过运行此命令获取执行的作业列表,
hadoop 作业 - 列出所有
然后对于每个作业 ID,您可以使用命令 hadoop job -status job-id 检索统计信息
为了将作业与查询相关联,您可以获取 job_name 并将其与查询匹配。像这样, 如何获取当前正在运行的 hadoop 作业的名称?
希望这可以帮助。