c# - 从 UTF-8 转换为 ISO-8859-15 时会自动替换哪些双引号字符？

Question

我有一个 UTF-8 编码的输入文件。我需要使用它的一些内容并从中创建一个 ISO-8859-15 编码的 CSV 文件。

问题是 UTF-8 似乎有几个用于双引号的字符，当将 CSV 文件写入光盘时，这些字符会自动替换为字符"（=引号 U+0022 ）。

我们找到的是：

当我像这样写入 CSV 文件时，转换会自动发生：

using (StreamWriter sw = new StreamWriter(workDir + "/files/vehicles.csv", append: false, encoding: Encoding.GetEncoding("ISO-8859-15")))
{
    foreach (ad vehicle in vehicles)
    {
        sw.WriteLine(convertVehicleToCsv(vehicle));
    }
}

该方法convertVehicleToCsv转义数据的双引号和其他特殊字符，但不转义特殊的 UTF-8 双引号字符。现在双引号被自动替换，CSV 不再符合RFC-4180，因此损坏。使用我们的 CSV 库读取它失败。

所以问题是：

"转换为 ISO-8859-15 时，还有哪些其他 UTF-8 字符会自动替换/转换为“普通”字符？这是在某处记录的吗？还是我在这里做错了什么？

score 2 · Accepted Answer

为了回答您的问题，以下是 .NET 在使用 a 时映射到 U+0022（您称之为“普通双引号”符号）的 Unicode 代码点列表StreamWriter：

U+0022
U+02BA
U+030E
U+201C
U+201D
U+201E
U+FF02

使用这个答案，我快速写了一些东西，它创建了 UTF-8 到 ISO-8859-15 (Latin-9) 的反向映射。

Encoding utf8 = Encoding.UTF8;
Encoding latin9 = Encoding.GetEncoding("ISO-8859-15");
Encoding iso = Encoding.GetEncoding(1252);

var map = new Dictionary<string, List<string>>();

// same code to get each line from the file as per the linked answer

while (true)
{
    string line = reader.ReadLine();
    if (line == null) break;
    string codePointHexAsString = line.Substring(0, line.IndexOf(";"));
    int codePoint = Convert.ToInt32(codePointHexAsString, 16);

    // skip Unicode surrogate area
    if (codePoint >= 0xD800 && codePoint <= 0xDFFF)
        continue;

    string utf16String = char.ConvertFromUtf32(codePoint);
    byte[] utf8Bytes = utf8.GetBytes(utf16String);
    byte[] latin9Bytes = Encoding.Convert(utf8, latin9, utf8Bytes);
    string latin9String = latin9.GetString(latin9Bytes);
    byte[] isoBytes = Encoding.Convert(utf8, iso, utf8Bytes);
    string isoString = iso.GetString(isoBytes); // this is not always the same as latin9String!

   string latin9HexAsString = latin9[0].ToString("X");

    if (!map.ContainsKey(latin9HexAsString))
    {
        isoMap[latin9HexAsString] = new List<string>();
    }
    isoMap[latin9HexAsString].Add(codePointHexAsString);
}

有趣的是，ISO-8859-15 似乎替换了比 ISO-8859-1 更多的字符，这是我没想到的。

score 1 · Accepted Answer

从 Unicode 转换为旧字符编码（例如 ISO-8859-15）时，.NET Framework 默认使用最佳匹配映射。这记录在MSDN 上的Windows 协议 Unicode 参考中。该文档引用了来自 Microsoft 下载中心的名为“排序权重表”的下载，其中包括 Windows 支持的旧编码的最佳匹配映射（在文件“Windows 支持的代码页数据文件.zip”中，当时这篇文章）。

c# - 从 UTF-8 转换为 ISO-8859-15 时会自动替换哪些双引号字符？

2 回答 2

Related

Reference