1

这是一个简单的 Map-Reduce 排序功能的 MRJob 实现。在beta.py

from mrjob.job import MRJob

class Beta(MRJob):
    def mapper(self, _, line):
        """
        """
        l = line.split(' ')
        yield l[1], l[0]

    def reducer(self, key, val):
        yield key, [v for v in val][0]


if __name__ == '__main__':
    Beta.run()

我使用文本运行它:

1 1
2 4
3 8
4 2
4 7
5 5
6 10
7 11

可以使用以下命令运行它:

cat <filename> | python beta.py

现在的问题是假设键是类型的输出排序string(这可能是这里的情况)。输出是:

"1"     "1"
"10"    "6"
"11"    "7"
"2"     "4"
"4"     "2"
"5"     "5"
"7"     "4"
"8"     "3"

我想要的输出是:

"1"     "1"
"2"     "4"
"4"     "2"
"5"     "5"
"7"     "4"
"8"     "3"
"10"    "6"
"11"    "7"

我不确定这是否与摆弄 MRJob 中的协议有关,因为协议是特定于工作的,而不是特定于步骤的。

编辑(解决方案):我已经得到了这个答案。这个想法是,需要在每个数字前面加上“O-bytes”,以便每个数字中的字节数与最大数字中的字节数相同。至少这是我在课堂上记得的。我现在无法添加答案,因为它不允许我,但这是我唯一的解决方案。如果有人有更透明和容易的东西,请分享。

4

1 回答 1

2

简单的解决方案(更强大的可能是基于调整 Hadoop 对映射器输出的排序方式)

class Beta(MRJob):

    def mapper (self, _, line):
        l = line.strip('\n').split()
        yield '%010d'%int(l[1]), l[0]

    def reducer(self, key, values):
        yield int(key),int(list(values)[0])
于 2014-05-01T12:56:08.417 回答