0

我想知道是否可以在消息发生时将消息从 Hive CLI 刷新到 stderr。目前我正在尝试执行一个多阶段查询(只是一个示例而不是实际的):

SELECT  COUNT(*) FROM ( 
SELECT user from users
where datetime = 05-10-2013
UNION ALL
SELECT user from users
where datetime = 05-10-2013 
) a

这将启动 3 个作业,但是如果作业 1 因为它被杀死而失败,我不想运行作业 2。目前我的代码如下所示,但是 hive 不会写入 stderr,直到所有子查询完成然后它返回错误。

def execute_hive_query(query):
    return_code = None
    cmd = ["hive", "-e", query]
    proc = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
    while return_code is None:
        out = proc.stdout.read()
        error = proc.stderr.read()
        handle_hive_exception(out,error)
        time.sleep(10)
        return_code = proc.poll()

def handle_hive_exception(stdout,stderr):
      if stderr != '':
      raise Exception(stderr)

谢谢!

4

1 回答 1

0

我怀疑查询的各个阶段是并行执行的。如果它们是串行执行的,那么一个失败将导致整个作业失败。

尝试hive.exec.parallel=false在您的查询中设置。

于 2013-05-30T01:37:02.203 回答