5

我在使用 PHP 将 ISO-8859-1 数据库内容转换为 UTF-8 时遇到了一些问题。我正在运行以下代码进行测试:

// Connect to a latin1 charset database 
// and retrieve "Georgia O’Keeffe", which contains a "’" character
$connection = mysql_connect('*****', '*****', '*****');
mysql_select_db('*****', $connection);
mysql_set_charset('latin1', $connection);
$result = mysql_query('SELECT notes FROM categories WHERE id = 16', $connection);
$latin1Str = mysql_result($result, 0);
$latin1Str = substr($latin1Str, strpos($latin1Str, 'Georgia'), 16);

// Try to convert it to UTF-8
$utf8Str = iconv('ISO-8859-1', 'UTF-8', $latin1Str);

// Output both
var_dump($latin1Str);
var_dump($utf8Str);

当我在 Firefox 的源代码视图中运行它时,确保 Firefox 的编码设置设置为“Western (ISO-8859-1)”,我得到这个:

asd

到目前为止,一切都很好。第一个输出包含那个奇怪的引用,我可以正确地看到它,因为它在 ISO-8859-1 中,Firefox 也是。

在我将 Firefox 的编码设置更改为“UTF-8”后,它看起来像这样:

asd

报价去哪儿了?不iconv()应该将其转换为 UTF-8 吗?

4

2 回答 2

16

U+2019 右单引号不是 ISO-8859-1 中的字符。它是windows-1252中的一个字符,为 0x92。实际的 ISO-8859-1 字符 0x92 是一个很少使用的C1 控制字符,称为“私人使用 2”。

使用字符集标签 ISO-8859-1 错误地标记 Windows-1252 文本数据是很常见的。许多 Web 浏览器和电子邮件客户端将 MIME 字符集 ISO-8859-1 视为 Windows-1252 字符以适应此类错误标记,但这不是标准行为,应注意避免在 ISO-8859-1 中生成这些字符标记的内容。

看来这就是这里发生的事情。将“ISO-8859-1”更改为“windows-1252”。

于 2010-09-15T01:40:14.443 回答
0

这将解决您的问题,假设您的页眉charset是 utf-8:

// Opens a connection to a MySQL server
$connection = mysql_connect ($server, $username, $password);
$charset = mysql_client_encoding($connection);
$flagChange = mysql_set_charset('utf8', $connection);
echo "The character set is: $charset</br>mysql_set_charset result:$flagChange</br>";
于 2013-12-04T20:51:49.390 回答