hadoop - Hadoop映射器压缩输出不起作用？

Question

我用的是hadoop cdh4.1.2，我的mapper程序几乎是输入数据的回声。但是在我的工作状态页面中，我看到了

FILE: Number of bytes written  3,040,552,298,327

几乎等于

FILE: Number of bytes read 3,363,917,397,416

对于映射器，虽然我已经设置了

conf.set("mapred.compress.map.output", "true");

似乎他们的压缩算法不适用于我的工作？为什么是这样？

score 1 · Accepted Answer

你的工作有减速机吗？

如果是这样，请检查“减少随机字节数”。如果这大大小于（1/5 左右）“映射输出字节数”，您可能会假设映射输出已压缩。压缩发生在映射完成后，因此，它可能会显示它具有输出的实际数据大小而不是压缩大小。

如果您仍然怀疑它是否正常工作，请提交压缩和不压缩的作业并比较“减少随机字节数”。就地图输出压缩而言，“减少随机字节数”才是最重要的。

1 回答 1