我一直在尝试使用较大的结果集运行一些 Hive 查询。我的常规方法是通过 WebHCat API 提交作业,并从生成的 stdout 文件中读取结果,或者只是在控制台上运行 hive 并将 stdout 传输到文件。但是,如果结果很大(使用了多个 reducer),则标准输出为空白或被截断。
我目前的解决方案是从结果中创建一个新表,CREATE TABLE FROM SELECT
这会引入一个额外的步骤,如果我不想保留结果集,则稍后清理该表。
有没有人有更好的方法来捕获来自此类 Hive 查询的所有结果?