php - 我的脚本工作正常，但我对为什么必须使用 utf8_decode() 感到困惑

Question

我对 utf8_decode() 的行为感到困惑，只想澄清一下。我希望没关系。

这是一个简单的 HTML 表单，我用它来捕获一些文本并将其保存到我的 MySQL 数据库（它使用 utf8_general_ci 排序规则）：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body>
<form action="update.php" method="post" accept-charset="utf-8"> 
<p> 
    Title: <input type="text" name="title" id="title" accept-charset="utf-8" size="75" value="" /> 
</p> 
<p> 
    <input type="submit" name="submit" value="Submit" /> 
</p> 
</form>
</body>
</html>

如您所见，我已在适当的地方使用 charset=utf8 对此进行了编码。我们接受包含变音符号的文本（例如，ñ、ó 等）。最后，我们在所有文本输入上运行一个小脚本来检查变音符号并将它们更改为 HTML 实体（例如，ñ 变为 ñ）。

当我的脚本接收到输入时，我首先必须执行 utf8_decode($input) 然后运行我的小脚本来检查并根据需要更改变音符号。一切正常。我很好奇为什么我必须在这个输入上运行解码。我了解 utf8_decode 将以 UTF-8 编码的字符串转换为 ISO-8859-1。我想确保——即使一切正常（或者我认为） ——我没有做一些以后会赶上我的古怪事情。例如，我正在发送 ISO-8859-1 编码字符以存储在我的数据库中，该数据库设置为存储/提供 UTF-8 字符。我应该对我的变音符号到实体脚本返回的字符串执行类似运行 utf8_encode() 的操作吗？例如：

$string = utf8_decode($string);
$search = explode(",","À,È,Ì,Ò,Ù,à,è,ì,ò,ù,Á,É,Í,Ó,Ú,Ý,á,é,í,ó,ú,ý,Â,Ê,Î,Ô,Û,â,ê,î,ô,û,Ã,Ñ,Õ,ã,ñ,õ,Ä,Ë,Ï,Ö,Ü,Ÿ,ä,ë,ï,ö,ü,ÿ,Å,å,Æ,æ,ß,Þ,þ,ç,Ç,Œ,œ,Ð,ð,Ø,ø,§,Š,š,µ,¢,£,¥,€,¤,ƒ,¡,¿");
$replace = explode(",","&Agrave;,&Egrave;,&Igrave;,&Ograve;,&Ugrave;,&agrave;,&egrave;,&igrave;,&ograve;,&ugrave;,&Aacute;,&Eacute;,&Iacute;,&Oacute;,&Uacute;,&Yacute;,&aacute;,&eacute;,&iacute;,&oacute;,&uacute;,&yacute;,&Acirc;,&Ecirc;,&Icirc;,&Ocirc;,&Ucirc;,&acirc;,&ecirc;,&icirc;,&ocirc;,&ucirc;,&Atilde;,Ntilde;,&Otilde;,&atilde;,&ntilde;,&otilde;,&Auml;,&Euml;,&Iuml;,&Ouml;,&Uuml;,&Yuml;,&auml;,&euml;,&iuml;,&ouml;,&uuml;,&yuml;,&Aring;,&aring;,&AElig;,&aelig;,&szlig;,&THORN;,&thorn;,&ccedil;,&Ccedil;,&OElig;,&oelig;,&ETH;,&eth;,&Oslash;,&oslash;,&sect;,&Scaron;,&scaron;,&micro;&cent;,&pound;,&yen;,&euro;,&curren;,&fnof;,&iexcl;,&iquest;");
$new_input = str_replace($search, $replace, $string);
return utf8_encode($new_input); // right now i just return $new_input.

感谢任何人对此提供的任何见解。

score 1 · Accepted Answer

不要使用“接受字符集”。它坏了。大多数浏览器已停止在自己的 http 请求中发送它。一些浏览器 (IE) 在解析表单时完全忽略了这个属性，而其他浏览器对它的处理非常有限。在实践中，“接受字符集”弊大于利。

约定是浏览器将以与接收表单相同的编码发送数据。因此，请确保您的页面以 UTF-8 格式发送。您在 HTML 头部的元标记是不够的。对于 PHP 页面，可以在 3 个位置设置此设置：

“head”中的HTML 标记<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />。
Apache 配置中的AddDefautCharset UTF8一行（或其他 Web 服务器中的任何类似内容）。
一个 PHP 调用header("Content-type=text/html; charset=utf-8");（在页面上显示任何内容之前）。

每个指令都覆盖以前的指令。因此，如果您的服务器已经声明了一个字符集，您的元标记将被忽略。

所以你应该：

当然，请确保您的源文件是 UTF-8 格式。
修复您的 HTML 源代码，以便它在 W3C 上进行验证。例如，您的元标记应该在 XHTML 中关闭。
删除“接受字符集”属性。
最终，在 Apache 或 PHP 中强制编码声明header()。
确保在您的浏览器中从服务器接收到的 HTTP 标头声明了正确的编码（如果您依赖元标记，则没有编码）。在 Linuxcurl -I <URL>上仅显示 HTTP 标头。

score 0 · Accepted Answer

当提交带有 accept-charset="utf-8" 的表单时，浏览器会将表单数据以使用 utf-8 编码的 ISO-8859-1 字符发送到服务器。utf8_decode 将编码数据 bact 转换为严格的 ISO-8859-1。例如，如果您提交“ñ”，则 utf-8 编码会将“%F1”提交给您的表单操作，然后必须将其转换回“ñ”才能使您的脚本正常工作。

score 0 · Accepted Answer

所以将让页面显示以 utf-8 显示的文本，但即使您使用 accept-charset="utf-8" 将其切换为 utf8，服务器也会将其与 iso-8859-1 一致，然后当它显示时它是然后再次从 iso-8859-1 转换为 utf-8，但能够转换一个 utf-8 唯一的字符，所以它最终显示一个奇怪的字符，每次你循环这个过程时，它会变得越来越糟，所以我发现即使你在 html 端做了所有事情，也没有办法在服务器上切换它以读取 utf-8，所以你不能将所有东西都切换到 utf-8。那是在apache上，如果有办法我很想知道。

php - 我的脚本工作正常，但我对为什么必须使用 utf8_decode() 感到困惑

3 回答 3

Related

Reference