我正在尝试在两个数据集之间进行连接,一个存储在 Hive 表中,另一个不存储。我看到根据人们的做法,这不是很正常,例如,他们要么将所有内容定义为 Hive 表,要么不定义。
现在有了 MultipleInputs 类,但是 addInputPath 方法需要 Configuration、Path、InputFormat、Mapper
我可以在那里使用输入格式并尝试将表名伪装成路径,但这听起来充其量只是一个疯狂的猜测。
有一个更新版本的 Hive 的补丁(我在 CDH4 上,所以这意味着 hive 0.10 和 hcat 0.5 可悲)。我发现这个补丁不能直接翻译成我当前的版本,而且似乎只适用于多个表而不是它们的混合。
https://issues.apache.org/jira/browse/HIVE-4997
这可能吗?或者你有什么建议吗?
我唯一能想到的是在不使用表格的情况下读取原始数据,但这意味着我宁愿避免使用配置单元特定格式的逻辑。