如果我的工作的输入是文件集 [a, b, c, d],那么严格排序的输入是 [map(a.0), map(a.1), map(b.0), map( b.1)、地图(c.0)、地图(c.1)、地图(d.0)、地图(d.1)]?
我的动机是拥有一系列文件(当然会被分成块),其行是 [key, value]; 其中每个键和值都是一个简单的字符串。尽管没有明确的顺序定义字段,但我希望按照它们在输入中出现的顺序在每个键的 reducer 中将这些值连接在一起。
非常感谢任何建议;事实证明,这对谷歌来说是一个困难的查询。
例子
输入格式
A First
A Another
A Third
B First
C First
C Another
期望的输出
A First,Another,Third
B First
C First,Another
重申一下,鉴于文件存储在单独的块中,我不确定是否可以依靠正确的顺序获得 First-Third。