2

我正在尝试将字符串从 iso-8859-1 转换为 utf-8。但是当我找到这两个字符 € 和 • 时,函数返回一个字符,它是一个正方形,里面有两个数字。

我该如何解决这个问题?

4

4 回答 4

8

我认为您正在寻找的编码是Windows 代码页 1252(西欧)。它与 ISO-8859-1(或 8859-15)不同;0xA0-0xFF 范围内的字符与 8859-1 匹配,但 cp1252 在 0x80-0x9F 范围内添加了一系列额外字符,其中 ISO-8859-1 分配了很少使用的控制代码。

之所以会出现这种混乱,是因为当您将页面提供为 时text/html;charset=iso-8859-1,由于历史原因,浏览器实际上使用 cp1252(因此也会在 cp1252 中提交表单)。

iconv('cp1252', 'utf-8', "\x80 and \x95")
-> "\xe2\x82\xac and \xe2\x80\xa2"
于 2010-09-02T15:07:05.527 回答
2

始终首先检查您的编码!你永远不应该盲目相信你的编码(即使它来自你自己的网站!):

function convert_cp1252_to_utf8($input, $default = '') {
    if ($input === null || $input == '') {
        return $default;
    }

    // https://en.wikipedia.org/wiki/UTF-8
    // https://en.wikipedia.org/wiki/ISO/IEC_8859-1
    // https://en.wikipedia.org/wiki/Windows-1252
    // http://www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1252.TXT
    $encoding = mb_detect_encoding($input, array('Windows-1252', 'ISO-8859-1'), true);
    if ($encoding == 'ISO-8859-1' || $encoding == 'Windows-1252') {
        /*
         * Because ISO-8859-1 and CP1252 are identical except for 0x80 through 0x9F
         * and control characters, always convert from Windows-1252 to UTF-8.
         */
        $input = iconv('Windows-1252', 'UTF-8//IGNORE', $input);
    }
    return $input;
}
于 2014-04-24T15:24:13.483 回答
0

iso-8859-1 不包含 € 符号,因此如果包含它,则无法使用 iso-8859-1 解释您的字符串。请改用 iso-8859-15。

于 2010-09-02T14:49:25.647 回答
0

这 2 个字符在 iso-8859-1 中是非法的(您的意思是 iso-8859-15 吗?)

$ php -r 'echo iconv("utf-8","iso-8859-1//TRANSLIT","ter € and • the");'
ter EUR and o the
于 2010-09-02T14:49:33.727 回答