9

考虑这个简单的代码:

echo iconv('UTF-8', 'ASCII//TRANSLIT', 'è');

它打印

 `e

而不仅仅是

 e

你知道我做错了什么吗?


添加 setlocale 后没有任何变化

setlocale(LC_COLLATE, 'en_US.utf8');
echo iconv('UTF-8', 'ASCII//TRANSLIT', 'è');
4

7 回答 7

10

我有这个标准函数可以返回没有无效 url 字符的有效 url 字符串。魔术似乎在//remove不需要的字符注释之后的行中。

这取自 Symfony 框架文档:http ://www.symfony-project.org/jobeet/1_4/Doctrine/en/08又取自http://php.vrana.cz/vytvoreni-pratelskeho- url.php但我不会说捷克语 ;-)

function slugify($text)
{
  // replace non letter or digits by -
  $text = preg_replace('#[^\\pL\d]+#u', '-', $text);

  // trim
  $text = trim($text, '-');

  // transliterate
  if (function_exists('iconv'))
  {
    $text = iconv('utf-8', 'us-ascii//TRANSLIT', $text);
  }

  // lowercase
  $text = strtolower($text);

  // remove unwanted characters
  $text = preg_replace('#[^-\w]+#', '', $text);

  if (empty($text))
  {
    return 'n-a';
  }

  return $text;
}

echo slugify('é'); // --> "e"
于 2011-02-06T00:32:58.637 回答
8

cf @tchrist,带有 INTL php 扩展

http://fr2.php.net/manual/en/book.intl.php

preg_replace('/\pM*/u','',normalizer_normalize( $mystring, Normalizer::FORM_D));

eéèêëiîïoööuùûüaâäÅ Ἥ ŐǟǠ ǺƶƈƉųŪŧȬƀ␢ĦŁȽŦ ƀǖ变为

eeeeeiiiooouuuuaaaA Η OaA AƶƈƉuUŧOƀ␢ĦŁŁŦŦƀu


正如 tchrist 强调的那样,并非所有 unicode 字符都被认为是可分解的:

从 Unicode 图表中提取:

U0080.pdf

00CF Ï 带分音符号的拉丁文大写字母 I

≡ 0049 I 0308 ¨

注意这个符号 « ≡ » 表示一个可用的分解

00D0 - 拉丁文大写字母 ETH

→ 00F0 ð 拉丁文小写字母 eth

→ 0110 Đ 带笔划的拉丁文大写字母 d

→ 0189 Ɖ 拉丁文大写字母 非洲 d

没有可用的分解,奇怪的是恕我直言(我们可以将 ASCII 字母 D 视为可接受的等价物)。

U0100.pdf

0110 Đ 带笔划的拉丁文大写字母 D

→ 00D0 - 拉丁文大写字母 eth

→ 0111 đ 带笔划的拉丁文小写字母 d

→ 0189 Ɖ 拉丁文大写字母 非洲 d

更奇怪的是:这个被标识为拉丁大写字母 D(带有笔划),但不能这样分解!也许更酷的解决方案应该是获取每个字符的 unicode 描述,并将其与每个 ascii 字符的描述进行比较(并相应地替换)。任何人?;-]

cf http://unicode.org/Public/UNIDATA/UnicodeData.txt

于 2012-08-08T15:28:01.737 回答
2

没有php的纯iconv发生在我身上。诀窍是将 LANG 环境值设置为 en_US.UTF-8 (在我的例子中,之前是 hu_HU.UTF-8)。在它按预期工作之后。

于 2013-07-01T13:22:04.267 回答
0

在进行音译时,您必须确保正确设置了 LC_COLLATE,否则将使用默认的 POSIX。

http://uk3.php.net/manual/en/function.setlocale.php

于 2011-02-06T00:22:34.107 回答
0

我很想说“没什么”,尽管这有点超出我的专业知识。PHP 的 iconv() 是臭名昭著的,许多变通方法的灵感,包括

  • 拖放到系统的 iconv 实用程序(Unix 和 Linux)
  • 制作查找表
  • 用等价的 ASCII 替换所有重音字符作为预处理阶段的一种
  • 设置 LC_COLLATE (这似乎并不适合所有人)
  • 使用 htmlentities() 而不是 iconv()

阅读iconv() 文档的评论以获得更多灵感。(或同情。太接近了,无法打电话。)

于 2011-02-06T00:50:46.123 回答
0

似乎处理这个问题的标准方法是使用“删除重音”功能,您可以在图书馆之类的繁荣或 CMS 之类的Wordpress中找到该功能。Iconv 似乎无法翻译口音(这是正确的),因为这对于 URL slug 以外的任何东西都不是一个好主意。

于 2011-10-28T15:18:10.930 回答
-1

似乎它取决于php版本......


测试用例 #1

php -version

PHP 7.0.0RC8 (cli) (built: Nov 25 2015 12:36:50) (NTS) 版权所有 (c) 1997-2015 The PHP Group Zend Engine v3.0.0, Copyright (c) 1998-2015 Zend Technologies with Zend OPcache v7.0.6-dev,版权所有 (c) 1999-2015,由 Zend Technologies 提供

php -r "var_dump(iconv('UTF-8', 'ASCII//TRANSLIT', 'è'));"

string(2) "`e"

测试用例 #2

php -version

PHP 7.0.8-1~dotdeb+8.1 (cli) ( NTS ) Copyright (c) 1997-2016 The PHP Group Zend Engine v3.0.0, Copyright (c) 1998-2016 Zend Technologies with Zend OPcache v7.0.8-1~ dotdeb+8.1,版权所有 (c) 1999-2016,由 Zend Technologies 提供

php -r "var_dump(iconv('UTF-8', 'ASCII//TRANSLIT', 'è'));"

string(1) "e"
于 2016-08-01T22:44:15.160 回答