我对 apache pig 有疑问,不知道如何解决,或者是否可能。我使用 hbase 作为“存储层”。该表如下所示:
row key/column (b1, c1) (b2, c2) ... (bn, cn)
a1 empty empty empty
a2 ...
an ...
有 a1 到 an 的行键,每一行都有不同的列,语法为 (bn, cn)。每行/列的值为空。
我的猪程序如下所示:
/* Loading the data */
mydata = load 'hbase://mytable' ... as (a:chararray, b_c:map[]);
/* finding the right elements */
sub1 = FILTER mydata BY a == 'a1';
sub2 = FILTER mydata BY a == 'a2');
现在我想加入 sub1 和 sub2,这意味着我想找到同时存在于数据 sub1 和 sub2 中的列。我怎样才能做到这一点?