我在 AWS EMR 中运行的 hadoop 集群上安装了 hive 0.8。
我正在尝试进行一些数据 QA,其中涉及运行配置单元查询并将结果提取到包含更多逻辑的 python 中。
目前,这是通过将 hive 查询作为工作流步骤发送,将这些结果转储到主节点上的本地存储,将这些结果 SCP-ing 到我的本地计算机,然后使用 python 加载文件并解析结果来实现的。总而言之,不是一个非常有趣的过程。
理想情况下,我将能够以类似于以下方式执行此操作:
conn = hive.connect(ip, port, user, pw)
cursor = conn.cursor()
cursor.execute(query)
rs = cursor.fetchall()
这似乎是可能的。Hive 说它在这里支持它。还有另一个SO question看起来它正在做我想做的事情。
但是,我无法找到文档。特别是,我无法弄清楚从哪里获得这些示例中使用的包。如果有人能够提供有关如何使 python 客户端正常工作的详细说明,那将非常有帮助,但如果做不到这一点,那么知道从哪里获取这些包将会很有帮助。