我写了一个简单的程序来收集一些数据中关于二元组的一些统计数据。我将统计信息打印到自定义文件中。
Path file = new Path(context.getConfiguration().get("mapred.output.dir") + "/bigram.txt");
FSDataOutputStream out = file.getFileSystem(context.getConfiguration()).create(file);
我的代码有以下几行:
Text.writeString(out, "total number of unique bigrams: " + uniqBigramCount + "\n");
Text.writeString(out, "total number of bigrams: " + totalBigramCount + "\n");
Text.writeString(out, "number of bigrams that appear only once: " + onceBigramCount + "\n");
我在 vim/gedit 中得到以下输出:
'total number of unique bigrams: 424462
!total number of bigrams: 1578220
0number of bigrams that appear only once: 296139
除了行首不需要的字符外,还有一些非打印字符。这背后的原因可能是什么?