.net - 确定 TextFile 编码？

Question

我需要确定文本文件的内容是否等于以下文本编码之一：

System.Text.Encoding.ASCII
System.Text.Encoding.BigEndianUnicode ' UTF-L 16
System.Text.Encoding.Default ' ANSI
System.Text.Encoding.Unicode ' UTF16
System.Text.Encoding.UTF32
System.Text.Encoding.UTF7
System.Text.Encoding.UTF8

我不知道如何读取文件的字节标记，我见过这样做的片段，但只能确定文件是 ASCII 还是 Unicode，因此我需要更通用的东西。

score 63 · Accepted Answer

第一步是将文件加载为字节数组而不是字符串。字符串始终以 UTF-16 编码存储在内存中，因此一旦将其加载到字符串中，原始编码就会丢失。这是将文件加载到字节数组中的一种方法的简单示例：

Dim data() As Byte = File.ReadAllBytes("test.txt")

众所周知，自动确定给定字节数组的正确编码非常困难。有时，为了提供帮助，数据的作者会在数据的开头插入称为 BOM（字节顺序标记）的东西。如果存在 BOM，则可以轻松检测编码，因为每种编码都使用不同的 BOM。

从 BOM 中自动检测编码的最简单方法是让系统StreamReader为您完成。在的构造函数中，StreamReader您可以传递参数。然后您可以通过访问其属性来获取流的编码。但是，在读取 BOM之后，该属性才会起作用。因此，您首先必须阅读 BOM，然后才能获得编码，例如：TruedetectEncodingFromByteOrderMarksCurrentEncodingCurrentEncodingStreamReader

Public Function GetFileEncoding(filePath As String) As Encoding
    Using sr As New StreamReader(filePath, True)
        sr.Read()
        Return sr.CurrentEncoding
    End Using
End Function

但是，这种方法的问题在于MSDN似乎暗示它StreamReader可能只检测某些类型的编码：

detectEncodingFromByteOrderMarks 参数通过查看流的前三个字节来检测编码。如果文件以适当的字节顺序标记开头，它会自动识别 UTF-8、little-endian Unicode 和 big-endian Unicode 文本。有关详细信息，请参阅 Encoding.GetPreamble 方法。

此外，如果StreamReader无法从 BOM 确定编码，或者如果 BOM 不存在，它将默认为 UTF-8 编码，而不会给您任何失败的指示。如果您需要比这更精细的控制，您可以很容易地阅读 BOM 并自己解释它。您所要做的就是将字节数组中的前几个字节与一些已知的、预期的 BOM 进行比较，看看它们是否匹配。以下是一些常见 BOM 的列表：

UTF-8：EF BB BF
UTF-16 大端字节序：FE FF
UTF-16 little endian 字节顺序：FF FE
UTF-32 大端字节序：00 00 FE FF
UTF-32 little endian 字节顺序：FF FE 00 00

因此，例如，要查看字节数组的开头是否存在 UTF-16（小端序）BOM，您可以简单地执行以下操作：

If (data(0) = &HFF) And (data(1) = &HFE) Then
    ' Data starts with UTF-16 (little endian) BOM
End If

方便的是Encoding，.NET 中的类包含一个调用的方法，该方法GetPreamble返回编码使用的 BOM，因此您甚至不需要记住它们都是什么。因此，要检查字节数组是否以 Unicode 的 BOM（UTF-16，little-endian）开头，您可以这样做：

Function IsUtf16LittleEndian(data() as Byte) As Boolean
    Dim bom() As Byte = Encoding.Unicode.GetPreamble()
    If (data(0) = bom(0)) And (data(1) = bom(1) Then
        Return True
    Else
        Return False
    End If
End Function

当然，上面的函数假设数据长度至少是两个字节，而 BOM 正好是两个字节。因此，虽然它尽可能清楚地说明了如何做到这一点，但这并不是最安全的方法。为了使其能够容忍不同的数组长度，特别是因为 BOM 长度本身可能因一种编码而异，因此执行以下操作会更安全：

Function IsUtf16LittleEndian(data() as Byte) As Boolean
    Dim bom() As Byte = Encoding.Unicode.GetPreamble()
    Return data.Zip(bom, Function(x, y) x = y).All(Function(x) x)
End Function

那么，问题就变成了，如何获得所有编码的列表？恰巧，.NETEncoding类还提供了一个共享（静态）方法GetEncodings，该方法返回所有支持的编码对象的列表。因此，您可以创建一个循环所有编码对象的方法，获取每个编码对象的 BOM 并将其与字节数组进行比较，直到找到匹配的对象。例如：

Public Function DetectEncodingFromBom(data() As Byte) As Encoding
    Return Encoding.GetEncodings().
        Select(Function(info) info.GetEncoding()).
        FirstOrDefault(Function(enc) DataStartsWithBom(data, enc))
End Function

Private Function DataStartsWithBom(data() As Byte, enc As Encoding) As Boolean
    Dim bom() As Byte = enc.GetPreamble()
    If bom.Length <> 0 Then
        Return data.
            Zip(bom, Function(x, y) x = y).
            All(Function(x) x)
    Else
        Return False
    End If
End Function

一旦你做了一个这样的函数，你就可以像这样检测文件的编码：

Dim data() As Byte = File.ReadAllBytes("test.txt")
Dim detectedEncoding As Encoding = DetectEncodingFromBom(data)
If detectedEncoding Is Nothing Then
    Console.WriteLine("Unable to detect encoding")
Else
    Console.WriteLine(detectedEncoding.EncodingName)
End If

但是，问题依然存在，没有BOM时如何自动检测正确的编码？从技术上讲，建议您在使用 UTF-8 时不要将 BOM 放在数据的开头，并且没有为任何 ANSI 代码页定义 BOM。因此，文本文件可能没有 BOM 肯定不是不可能的。如果您处理的所有文件都是英文的，那么可以假设如果没有 BOM，那么 UTF-8 就足够了。但是，如果任何文件碰巧使用了其他东西，而没有 BOM，那么这将不起作用。

正如您正确观察到的那样，即使没有 BOM，有些应用程序仍会自动检测编码，但它们是通过启发式（即有根据的猜测）来检测的，有时它们并不准确。基本上，他们使用每种编码加载数据，然后查看数据是否“看起来”可以理解。这个页面提供了一些关于记事本自动检测算法内部问题的有趣见解。本页展示了如何利用 Internet Explorer 使用的基于 COM 的自动检测算法（在 C# 中）。以下是人们编写的一些 C# 库的列表，这些库尝试自动检测字节数组的编码，您可能会发现这些库很有帮助：

即使这个问题是针对 C# 的，您也可能会发现它的答案很有用。

.net - 确定 TextFile 编码？

1 回答 1

Related

Reference