有什么好的解决方案可以很好地进行这种音译吗?
我试过使用iconv()
,但很烦人,而且它的行为不像人们预期的那样。
- 使用
//TRANSLIT
将尝试替换它可以替换的内容,将所有不可转换的内容保留为“?” - 使用
//IGNORE
不会离开“?”E_NOTICE
在文本中,但也不会音译,并且在找到不可转换的 char 时也会引发,因此您必须将 iconv 与@错误抑制器一起使用 - 使用
//IGNORE//TRANSLIT
(正如一些人在 PHP 论坛中建议的那样)实际上与//IGNORE
(在 php 版本 5.3.2 和 5.3.13 上自己尝试过)相同 - 也使用
//TRANSLIT//IGNORE
与//TRANSLIT
它还使用当前的语言环境设置进行音译。
警告 - 大量文本和代码如下!
这里有些例子:
$text = 'Regular ascii text + čćžšđ + äöüß + éĕěėëȩ + æø€ + $ + ¶ + @';
echo '<br />original: ' . $text;
echo '<br />regular: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
//> regular: Regular ascii text + ????? + ???ss + ?????? + ae?EUR + $ + ? + @
setlocale(LC_ALL, 'en_GB');
echo '<br />en_GB: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
//> en_GB: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @
setlocale(LC_ALL, 'en_GB.UTF8'); // will this work?
echo '<br />en_GB.UTF8: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
//> en_GB.UTF8: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @
好的,确实转换了 č ć š ä ö ü ß é ĕ ě ė ë ȩ 和 æ,但为什么不转换 đ 和 ø?
// now specific locales
setlocale(LC_ALL, 'hr_Hr'); // this should fix croatian đ, right?
echo '<br />hr_Hr: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
// wrong > hr_Hr: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @
setlocale(LC_ALL, 'sv_SE'); // so this will fix swedish ø?
echo '<br />sv_SE: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
// will not > sv_SE: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @
//this is interesting
setlocale(LC_ALL, 'de_DE');
echo '<br />de_DE: ' . iconv("UTF-8", "ASCII//TRANSLIT", $text);
//> de_DE: Regular ascii text + cczs? + aeoeuess + eeeeee + ae?EUR + $ + ? + @
// actually this is what any german would expect since ä ö ü really is same as ae oe ue
让我们尝试//IGNORE
:
echo '<br />ignore: ' . iconv("UTF-8", "ASCII//IGNORE", $text);
//> ignore: Regular ascii text + + + + + $ + + @
//+ E_NOTICE: "Notice: iconv(): Detected an illegal character in input string in /var/www/test.server.web/index.php on line 49"
// with translit?
echo '<br />ignore/translit: ' . iconv("UTF-8", "ASCII//IGNORE//TRANSLIT", $text);
//same as ignore only> ignore/translit: Regular ascii text + + + + + $ + + @
//+ E_NOTICE: "Notice: iconv(): Detected an illegal character in input string in /var/www/test.server.web/index.php on line 54"
// translit/ignore?
echo '<br />translit/ignore: ' . iconv("UTF-8", "ASCII//TRANSLIT//IGNORE", $text);
//same as translit only> translit/ignore: Regular ascii text + cczs? + aouss + eeeeee + ae?EUR + $ + ? + @
使用这个人的解决方案也不能按预期工作:Regular ascii text + YYYYY + aous + eYYYeY + aoY + $ + � + @
即使使用 PECL intl Normalizer类(即使您的 PHP > 5.3.0 也不总是可用的,因为 ICU 包 intl 使用可能对 PHP 不可用,即在某些托管服务器上)会产生错误的结果:
echo '<br />normalize: ' .preg_replace('/\p{Mn}/u', '', Normalizer::normalize($text, Normalizer::FORM_KD));
//>normalize: Regular ascii text + cczsđ + aouß + eeeeee + æø€ + $ + ¶ + @
那么有没有其他方法可以做到这一点,或者唯一正确的做法是自己做preg_replace()
或str_replace()
定义音译表?
// 附录:我在 2008 年的 ZF wiki 辩论中发现了有关Zend_Filter_Transliterate 提案的建议,但由于在某些语言中无法转换(即中文),因此该项目被放弃,但对于任何基于拉丁语和西里尔语的语言 IMO 仍然有此选项应该存在。