我们的环境非常重视在 hive 中存储数据。我发现自己目前正在做一些超出范围的事情。我编写了一个 mapreduce,但它需要大量直接用户输入来获取可以轻松从 Hive 中抓取的信息。也就是说,当我查询 hive 以获取扩展表数据时,所有扩展信息都被丢弃在 1 或 2 列中,作为几乎 JSON 的巨大 blob。是否有一种方便的方法来解析这些信息,或者更好的是,直接在更直接的庄园中获取它?
或者,如果我可以得到有关手动使用 CombinedHiveInputFormat 的文档,那将大大简化我的代码。但似乎 InputFormat 仅在 Hive 内部使用,使用它的自定义结构。
最终,我想要知道映射器正在处理的拆分的表名、列(不包括分区)和分区位置。如果还有另一种方法可以做到这一点,我很想知道。