c# - 对标记为 ASCII 的 EXIF 属性使用 UTF8 解码是否安全？

Question

我收到了一个带有 EXIF ImageDescription 元数据的图像文件，其值为“测试口音：éâäàè”。使用 .NET GDI+ 类提取此数据时，它报告它存储为 ASCII，但在使用 ASCII 解码器时得到垃圾数据。通过反复试验，我发现我可以使用 UTF8 解码器正确提取它。

这是示例代码：

public string GetDescription()
{
  const string filePath = @"C:\test_image.jpg";

  using (var bmp = new System.Drawing.Bitmap(filePath))
  {
    var propItem = bmp.PropertyItems.FirstOrDefault(p => p.Id == 270); // EXIF ImageDescription

    if (propItem == null)
      return null;

    string value = null;

    if (propItem.Type == 2) // ASCII
    {
      // Does not work: Returns "Test accents: ??????????"
      var asciiEnc = new System.Text.ASCIIEncoding();
      value = asciiEnc.GetString(propItem.Value, 0, propItem.Value.Length - 1);

      // CORRECT: Returns "Test accents: éâäàè"
      var utf8Enc = new System.Text.UTF8Encoding();
      value = utf8Enc.GetString(propItem.Value, 0, propItem.Value.Length - 1);
    }

    return value;
  }
}

我正在考虑更改我的生产代码，以便在提取元属性时始终使用 UTF8 解码器，即使 PropertyItem.Type 指示它是 ASCII。在这种情况下它当然有效，但我把它扔给你们，以防我遗漏了不可预见的后果。

那么 - 在提取 ASCII 元数据时使用 UTF8 解码器是不是一个坏主意？

PS：我还尝试使用以下代码使用 BitmapMetadata 类提取数据，但结果不正确。如果有一种可靠的方法来使用这种技术，我愿意接受。

// Returns incorrect string: "Test accents: Ã©Ã¢Ã¤Ã Ã¨"
var value = bitmapMetadata.GetQuery("/app1/ifd/{ushort=270}") as string;

score 7 · Accepted Answer

你不能让它可靠。Exif 遭受了常见的编码痛苦，Exif 标准规定只能使用 7 位 ASCII 代码，但每个人都忽略了它。他们必须这样做，ASCII 只是无法正确编码多种语言的文本。顺便说一句，Exif 来自日本，这个国家的语言很少使用 ASCII，而且编码问题历史悠久。所以每个人都只是选择适合他们的任何编码，可以是 UTF8 也可以是 ANSI，无论创建图像时常用的代码页。

在艰难险阻之间，使用 UTF8Encoding 是最好的选择。它不能很好地处理在 ANSI 代码页中编码的文本，您对此无能为力。Encoding.Default 是一个糟糕的第二选择。图片中的文本实际上是 utf-8 编码的。

但是，是的，如果文本实际上是纯 ASCII，那么 UTF8Encoding 就可以正常工作。Utf-8 以相同的方式对 ASCII 码进行编码。

score 0 · Accepted Answer

IPTC 标准在jbrout（在 Python 中）中我们Iptc.Envelope.CharacterSet这样做

self._md["Iptc.Envelope.CharacterSet"] = ['\x1b%G', ]

当然，我相信每个人都应该只将 UTF8 用于磁盘（或有线）的任何内容。使用 ANSI 编码（或者在 Microsoft 的其他操作系统中调用它）应该作为犯罪受到惩罚。

c# - 对标记为 ASCII 的 EXIF 属性使用 UTF8 解码是否安全？

2 回答 2

Related

Reference