我在客户网站上遇到了一个问题,其中包含“HabitaþÒo”之类的单词的行在输出时被破坏了。我正在处理一个文本文件(拉出选定的行并将它们写入另一个文件)
为了诊断,我把问题归结为一个只有那个坏词的文件。
原始文件不包含 BOM,但 .net 选择将其读取为 UTF-8。
在阅读和书写时,这个词最终看起来像这样“Habita��o”。
BadWord.txt 文件的十六进制转储如下所示
使用此代码复制文件
using (var reader = new StreamReader(@"C:\BadWord.txt"))
using (var writer = new StreamWriter(@"C:\BadWordReadAndWritten.txt"))
writer.WriteLine(reader.ReadLine());
. . . 给 . . .
保留阅读器编码也无济于事
using (var reader = new StreamReader(@"C:\BadWord.txt"))
using (var writer = new StreamWriter(@"C:\BadWordReadAndWritten_PreseveEncoding.txt", false, reader.CurrentEncoding))
writer.WriteLine(reader.ReadLine());
. . . 给 . . .
任何想法这里发生了什么,我如何处理这个文件并保留原始文本?