php - Photoshop 在元数据中将版权符号保存为 UTF-8（未转义）

Question

**更新 - 我发现这篇关于 Photoshop 编码的帖子- 说他们“将字符“©”编码为 UTF-8 编码的 Exif 元数据。”

** 答案 - 这是一个转义问题 - 不是编码问题。Photoshop 允许元数据中的版权符号而不对其进行转义。上面的链接中提到（并抱怨）了这一点。我更改了标题以反映真正的问题**

我已经阅读了该站点上的所有内容，试图将版权符号保存到 jpeg 元数据中。我知道问题出在编码上，并且已经尝试了所有方法。

问题：当我将版权符号保存到 jpeg 元数据时，它会像©在 Photoshop 中一样显示，但是当我加载元数据时，它会正确显示。

写入 jpeg 时，我调用 UTF8_to_unicode_array() 对字符串进行编码，然后在保存之前调用 unicode_array_to_UTF8() 。知道我缺少什么吗？

从 UTF8 到 Unicode：

function UTF8_to_unicode_array($utf8_text )
{    
    // Create an array to receive the unicode character numbers output
    $output = array();
    mb_convert_encoding($utf8_text,'utf-8');                
    $atext = mbStringToArray($utf8_text);

// Cycle through the characters in the UTF-8 string
foreach ($atext as $text ){
    $output [] = uniord2($text);
}
return $output;
}

function uniord2($c)

  $ord0 = ord($c{0}); if ($ord0>=0   && $ord0<=127) return $ord0;
  $ord1 = ord($c{1}); if ($ord0>=192 && $ord0<=223) return ($ord0-192)*64 + ($ord1-128); 
  $ord2 = ord($c{2}); if ($ord0>=224 && $ord0<=239) return ($ord0-224)*4096 + ($ord1-128)*64 + ($ord2-128);
  $ord3 = ord($c{3}); if ($ord0>=240 && $ord0<=247) return ($ord0-240)*262144 + ($ord1-128)*4096 + ($ord2-128)*64 + ($ord3-128);
return false;
}


function mbStringToArray ($string) {
  $array = array();
  $strlen = mb_strlen($string);
  while ($strlen) {
    $array[] = mb_substr($string,0,1,"UTF-8");
    $string = mb_substr($string,1,$strlen,"UTF-8");
    $strlen = mb_strlen($string);
}
return $array;
}

从 unicode 到 UTF8：

function unicode_array_to_UTF8( $unicode_array ){
    // Create a string to receive the UTF-8 output
    $output = "";

    // Cycle through each Unicode character number
    foreach( $unicode_array as $unicode_char )
    {
  $output .= utf8($unicode_char);
}

    // Return resulting UTF-8 String
    return $output;
}

function utf8($num){
  if($num<=0x7F)       return chr($num);        
  if($num<=0x7FF)      return chr(($num>>6)+192).chr(($num&63)+128);
  if($num<=0xFFFF)     return chr(($num>>12)+224).chr((($num>>6)&63)+128).chr(($num&63)+128);
  if($num<=0x1FFFFF)   return chr(($num>>18)+240).chr((($num>>12)&63)+128).chr((($num>>6)&63)+128).chr(($num&63)+128);
return '';
}

score 1 · Accepted Answer

您需要找出 JPEG 数据使用的编码。如果 Photoshop 不使用该编码，则它有问题，您应该要求退款（并使用免费的替代品，无论如何这更好）。如果您的代码需要处理损坏的 JPEG 元数据（例如来自损坏的 Photoshop），您将不得不猜测编码（可能是 Latin-1 或 Latin-15）并相应地转码。

现在，假设您现在知道编码，您可以将字节转码为 UTF-8（这是一种 Unicode 编码）以便在 PHP 中使用。请注意，PHP 并不特别支持 Unicode，它仍然使用字节字符串，因此 ASCII 范围之外的任何内容都将使用多个字符。索引到这样的字符串时请记住这一点。这也提出的问题是“unicode to UTF8”是什么意思，因为 UTF-8是Unicode。

我知道我在这里有点乐观，但很难说问题出在哪里。在尝试诊断此问题时，请确保您始终知道正在处理的字符串的字节值。原因是显示总是涉及某种解释，这使得无法判断是显示还是内容是罪魁祸首。

我仍然猜测您的问题出在哪里，或者至少您可以解决其中一个问题：您的函数 uniord() 将从提供的字符串中消耗可变数量的字节。如果单个字符（如版权标志）占用两个字节，您将解码该字符，然后在下一步中再次解码该字符的第二个字节，这只会产生垃圾。实际上，尝试将连续字节（二进制中的 10xxxxxx）解码为 UTF-8 序列中的第一个字节应该会引发异常，因为这是您没有有效 UTF-8 的确定信号。帮自己一个忙，检查此类错误并大声发出信号！

php - Photoshop 在元数据中将版权符号保存为 UTF-8（未转义）

1 回答 1

Related

Reference