1

我想匹配一组 unicode/UTF-8 字符,(在http://solomon.ie/unicode/此处标记为黄色),从我的研究中我想出了这个:

// ensure it's valid unicode / get rid of invalid UTF8 chars
$text = iconv("UTF-8","UTF-8//IGNORE",$text);

// and just allow a basic english...ish.. chars through - no controls, chinese etc
$match_list = "\x{09}\x{0a}\x{0d}\x{20}-\x{7e}"; // basic ascii chars plus CR,LF and TAB 
$match_list .= "\x{a1}-\x{ff}"; // extended latin 1 chars excluding control chars
$match_list .= "\x{20ac}"; // euro symbol

if (preg_match("/[^$match_list]/u", $text) )
    $error_text_array[] = "<b>INVALID UNICODE characters</b>";

测试似乎表明它按预期工作,但作为 uniocde 的新手,如果这里有人能发现我忽略的任何漏洞,我将不胜感激。

我可以确认十六进制范围匹配 unicode 代码点而不是实际的十六进制值(即欧元符号的 x20ac 而不是 xe282ac 是正确的)?

我可以混合文字字符和十六进制值,如 preg_match("/[^0-9\x{20ac}]/u", $text)?

谢谢,凯文

请注意,我之前尝试过这个问题,但它被关闭了 - “更适合 codereview.stackexchange.com”,但那里没有回应,所以希望可以以更简洁的格式再试一次。

4

1 回答 1

2

我创建了一个包装器来测试您的代码,我认为它在过滤您期望的字符时是安全的,但是当您的代码发现无效的 UTF-8 字符时,它会导致 E_NOTICE。所以我认为你应该在 iconv 行的开头添加 @ 来禁止通知。

对于第二个问题,可以混合文字字符和十六进制值。你也可以自己试试。:)

<?php
function generatechar($char)
{
    $char = str_pad(dechex($char), 4, '0', STR_PAD_LEFT);
    $unicodeChar = '\u'.$char;
    return json_decode('"'.$unicodeChar.'"');
}
function test($text)
{   
    // ensure it's valid unicode / get rid of invalid UTF8 chars
    @$text = iconv("UTF-8","UTF-8//IGNORE",$text); //Add @ to surpress warning
    // and just allow a basic english...ish.. chars through - no controls, chinese etc
    $match_list = "\x{09}\x{0a}\x{0d}\x{20}-\x{7e}"; // basic ascii chars plus CR,LF and TAB
    $match_list .= "\x{a1}-\x{ff}"; // extended latin 1 chars excluding control chars
    $match_list .= "\x{20ac}"; // euro symbol

    if (preg_match("/[^$match_list]+/u", $text)  )
        return false;

    if(strlen($text) == 0)
        return false; //For testing purpose!
    return true;
}

for($n=0;$n<65536;$n++)
{
    $c = generatechar($n);
    if(test($c))
        echo $n.':'.$c."\n";
}
于 2012-04-28T17:13:37.423 回答