0

我正在尝试使用 dumbo(Python)/haddop https://github.com/klbostee/dumbo/wiki/Short-tutorial#jobs-and-runners执行以下代码

我正确地遵循了教程,我已经完成了每一步,但是当我在 hadoop 环境中运行代码时,我得到如下输出:

SEQ/org.apache.hadoop.typedbytes.TypedBytesWritable/org.apache.hadoop.typedbytes.TypedBytesWritable...... �172.16.1.10��������������������172.16.1.12������������������172.16.1.30���� ��

它应该返回带有连接计数器的 IP 地址列表。为什么会出现这些角色?是编码问题吗?我如何解决它?谢谢

另外,如果我尝试教程中的其他程序,我也会遇到同样的问题。

4

1 回答 1

0

我自己回答。该输出是 Dumbo 的序列化形式。没有错误。

要将其转换为可读文本,以下命令就足够了(答案在教程中!我没看到)

dumbo cat ipcounts/part* -hadoop /usr/local/hadoop | sort -k2,2nr | head -n 5
于 2013-03-27T08:49:59.697 回答