我正在开发一个项目来扩展 Hive 以支持一些图像处理功能。
为此,我们需要读入一个image
,将其分解为多个文件,将每个文件传递给一个单独的 Map 任务,该任务对其进行一些处理,然后将它们还原为一个图像以返回给用户。
为此,我们计划在 Hadoop中实现一个UDF
调用任务的方法。MapReduce
但是,据我们了解,它UDF
只会在 Map 和 Reduce 端之间运行either on the Map side OR the Reduce side of the HQL query
,而我们需要它在理想情况下“运行”。bridge the gap
这Hive documentation
不是最有帮助的,我一直在寻找一些关于从哪里开始寻找有关此信息的指示。如果我的问题不够清楚,请随时提出更多问题。