hadoop - 使用 Apache Hive 作为 MapReduce 输入格式和/或抓取 Hive 元数据

翻译自：https://stackoverflow.com/questions/5668783 2011-04-14T19:44:59.000

925 次

我们的环境非常重视在 hive 中存储数据。我发现自己目前正在做一些超出范围的事情。我编写了一个 mapreduce，但它需要大量直接用户输入来获取可以轻松从 Hive 中抓取的信息。也就是说，当我查询 hive 以获取扩展表数据时，所有扩展信息都被丢弃在 1 或 2 列中，作为几乎 JSON 的巨大 blob。是否有一种方便的方法来解析这些信息，或者更好的是，直接在更直接的庄园中获取它？

或者，如果我可以得到有关手动使用 CombinedHiveInputFormat 的文档，那将大大简化我的代码。但似乎 InputFormat 仅在 Hive 内部使用，使用它的自定义结构。

最终，我想要知道映射器正在处理的拆分的表名、列（不包括分区）和分区位置。如果还有另一种方法可以做到这一点，我很想知道。

hadoop - 使用 Apache Hive 作为 MapReduce 输入格式和/或抓取 Hive 元数据

0 回答 0

Related

Reference