0
id col1 col2 ... coln
---------------------
foo barA barB ...
foo barD barX
boo barA barC
foo barC barC

我想将其组合成如下所示的“折叠”行:

foo barA;barD;barC barB;barX;barC
boo barD barC

目前,源文档是一个配置单元“表”,[我认为它与平面文本文件基本相同] - 我想知道实现这一目标的最有效方法是什么?

编辑:相关的早期问题(对于 SQL,唉,不是蜂巢)将多行组合成一个空格分隔的字符串

4

1 回答 1

0

如果您从 mapreduce 作业将数据加载到配置单元中,您可以调整该 MR 以为您对数据进行转换,并根据需要将其加载到表中(数组或;分隔等)

如果您希望能够更新/调整数据,那么 HIVE 可能不是最好的选择。您可能希望查看 HBase 并进行“聚合”以生成您希望将其加载到 HBase 中的数据。每当生成相同的 Key/ColumnFamily/Column 值时,如果它存在,它将覆盖它,因此它将“更新”该值。我在生产中使用它来生成全天不断更新的数据。

在任何一种情况下,要操纵大量数据的结构,您可能需要使用 mapreduce 作业并让它为您进行重组。

于 2011-05-05T17:55:18.313 回答