这是一个简单的 Map-Reduce 排序功能的 MRJob 实现。在beta.py
:
from mrjob.job import MRJob
class Beta(MRJob):
def mapper(self, _, line):
"""
"""
l = line.split(' ')
yield l[1], l[0]
def reducer(self, key, val):
yield key, [v for v in val][0]
if __name__ == '__main__':
Beta.run()
我使用文本运行它:
1 1
2 4
3 8
4 2
4 7
5 5
6 10
7 11
可以使用以下命令运行它:
cat <filename> | python beta.py
现在的问题是假设键是类型的输出排序string
(这可能是这里的情况)。输出是:
"1" "1"
"10" "6"
"11" "7"
"2" "4"
"4" "2"
"5" "5"
"7" "4"
"8" "3"
我想要的输出是:
"1" "1"
"2" "4"
"4" "2"
"5" "5"
"7" "4"
"8" "3"
"10" "6"
"11" "7"
我不确定这是否与摆弄 MRJob 中的协议有关,因为协议是特定于工作的,而不是特定于步骤的。
编辑(解决方案):我已经得到了这个答案。这个想法是,需要在每个数字前面加上“O-bytes”,以便每个数字中的字节数与最大数字中的字节数相同。至少这是我在课堂上记得的。我现在无法添加答案,因为它不允许我,但这是我唯一的解决方案。如果有人有更透明和容易的东西,请分享。