我拥有对 hadoop 服务器/集群的用户访问权限,其中包含仅存储在 hive (avro) 中的分区表/文件中的数据。我想知道是否可以在这些表上使用 python mrjob 执行 mapreduce?到目前为止,我一直在本地对存储在 CDH5 上的文本文件进行 mrjob 测试,开发的简易性给我留下了深刻的印象。
经过一番研究,我发现有一个名为 HCatalog 的库,但据我所知,它不适用于 python(仅限 Java)。不幸的是,我没有太多时间学习 Java,我想坚持使用 Python。
你知道有什么方法可以在 hive 存储的数据上运行 mrjob 吗?
如果这是不可能的,有没有办法将 python 编写的 mapreduce 代码流式传输到 hive?(我宁愿不将mapreduce python文件上传到hive)