在 Hadoop 中,我有很多看起来像这样:
(item_id,owner_id,counter)
- 可能有重复,但总是item_id
有相同的owner_id
!
我想获得counter
每个的总和,item_id
所以我有以下脚本:
alldata = LOAD '/path/to/data/*' USING D; -- D describes the structure
known_items = FILTER alldata BY owner_id > 0L;
group_by_item = GROUP known_data BY (item_id);
data = FOREACH group_by_item GENERATE group AS item_id, OWNER_ID_COLUMN_SOMEHOW, SUM(known_items.counter) AS items_count;
问题在于,FOREACH
如果我想采取known_items.owner_id
- 那将是一个包含所有分组之和的元组item_id
。获得第一个所有者的最有效方法是什么?