python - Map-Reduce/Hadoop 按整数值排序（使用 MRJob）

Question

这是一个简单的 Map-Reduce 排序功能的 MRJob 实现。在beta.py：

from mrjob.job import MRJob

class Beta(MRJob):
    def mapper(self, _, line):
        """
        """
        l = line.split(' ')
        yield l[1], l[0]

    def reducer(self, key, val):
        yield key, [v for v in val][0]


if __name__ == '__main__':
    Beta.run()

我使用文本运行它：

可以使用以下命令运行它：

cat <filename> | python beta.py

现在的问题是假设键是类型的输出排序string（这可能是这里的情况）。输出是：

"1"     "1"
"10"    "6"
"11"    "7"
"2"     "4"
"4"     "2"
"5"     "5"
"7"     "4"
"8"     "3"

我想要的输出是：

"1"     "1"
"2"     "4"
"4"     "2"
"5"     "5"
"7"     "4"
"8"     "3"
"10"    "6"
"11"    "7"

我不确定这是否与摆弄 MRJob 中的协议有关，因为协议是特定于工作的，而不是特定于步骤的。

编辑（解决方案）：我已经得到了这个答案。这个想法是，需要在每个数字前面加上“O-bytes”，以便每个数字中的字节数与最大数字中的字节数相同。至少这是我在课堂上记得的。我现在无法添加答案，因为它不允许我，但这是我唯一的解决方案。如果有人有更透明和容易的东西，请分享。

score 2 · Accepted Answer

简单的解决方案（更强大的可能是基于调整 Hadoop 对映射器输出的排序方式）

class Beta(MRJob):

    def mapper (self, _, line):
        l = line.strip('\n').split()
        yield '%010d'%int(l[1]), l[0]

    def reducer(self, key, values):
        yield int(key),int(list(values)[0])

python - Map-Reduce/Hadoop 按整数值排序（使用 MRJob）

1 回答 1

Related

Reference