我已经在我的 ubuntu 上设置了 hadoop,并运行了示例代码进行测试。一个常见的例子是https://github.com/tomwhite/hadoop-book/tree/master/ch02/src/main/python
我已经用给定的示例文件( https://github.com/tomwhite/hadoop-book/blob/master/input/ncdc/sample.txt )测试了这段代码。但是,当我根据我的数据文件修改映射器代码时,reducer 从 0% 变为 33%,然后又回到 0%。任何人都可以帮助解释为什么会发生这种情况或我应该如何修改代码。我的数据看起来像:
STN---,WBAN , YEARMODA, TEMP, , DEWP, , SLP , , STP , , VISIB, , WDSP, , MXSPD, GUST, MAX , MIN ,PRCP ,SNDP , FRSHTT,
690190,13910, 20120101, 42.9,18, 29.4,18, 1033.3,18, 968.7,18, 10.0,18, 8.7,18, 15.0, 999.9, 52.5*, 31.6*, 0.00I,999.9, 000000,