php - 用于从多字节字符串中去除重复字符的 PHP 方法？

Question

啊。有谁知道如何创建一个相当于 PHP count_chars($string, 3) 命令的多字节字符的函数？

这样它将返回每个唯一字符的仅一个实例的列表。如果那是英语，我们有

“aaabggxxyxzxxggggghq xcccxxxzxxyx”

它将返回“abgh qxyz”（注意空格被计算在内）。

（在这种情况下，顺序并不重要，可以是任何东西）。

如果日文汉字（不确定浏览器是否都支持）：

汉汉汉字私字私字私汉字私汉字</p>

它只会返回使用的 3 个汉字：

汉字私</p>

它需要处理任何 UTF-8 编码的字符串。

score 4 · Accepted Answer

嘿戴夫，你永远不会看到这个来的。

php > $kanji = '漢漢漢字漢字私私字私字漢字私漢字漢字私';
php > $not_kanji = 'aaabcccbbc';
php > $pattern = '/(.)\1+/u';
php > echo preg_replace($pattern, '$1', $kanji);
漢字漢字私字私字漢字私漢字漢字私
php > echo preg_replace($pattern, '$1', $not_kanji);
abcbc

什么，你以为我会mb_substr再次使用？

在正则表达式中，它正在寻找任何一个字符，然后是同一字符的一个或多个实例。然后将匹配的区域替换为匹配的一个字符。

该u修饰符在 PCRE 中打开 UTF-8 模式，其中它处理UTF-8 序列而不是 8 位字符。只要正在处理的字符串已经是 UTF-8并且PCRE 是在支持 Unicode 的情况下编译的，这对您来说应该可以正常工作。

嘿，你猜怎么着！

$not_kanji = 'aaabbbbcdddbbbbccgggcdddeeedddaaaffff';
$l = mb_strlen($not_kanji);
$unique = array();
for($i = 0; $i < $l; $i++) {
    $char = mb_substr($not_kanji, $i, 1);
    if(!array_key_exists($char, $unique))
        $unique[$char] = 0;
    $unique[$char]++;
}
echo join('', array_keys($unique));

这使用与 shuffle 代码相同的一般技巧。我们获取字符串的长度，然后mb_substr一次提取一个字符。然后我们将该字符用作数组中的键。我们正在利用 PHP 的位置数组：键按照定义的顺序排序。一旦我们遍历了字符串并识别了所有的字符，我们就抓住键并将它们按照它们在字符串中出现的顺序重新连接在一起。您还可以通过这种技术获得每个字符的字符数。

如果有这样的事情，这会容易mb_str_split得多str_split。

（这里没有汉字示例，我遇到了复制/粘贴错误。）

在这里，试试这个尺寸：

function mb_count_chars_kinda($input) {
    $l = mb_strlen($input);
    $unique = array();
    for($i = 0; $i < $l; $i++) {
        $char = mb_substr($input, $i, 1);
        if(!array_key_exists($char, $unique))
            $unique[$char] = 0;
        $unique[$char]++;
    }
    return $unique;
}

function mb_string_chars_diff($one, $two) {
    $left = array_keys(mb_count_chars_kinda($one));
    $right = array_keys(mb_count_chars_kinda($two));
    return array_diff($left, $right);
}

print_r(mb_string_chars_diff('aabbccddeeffgg', 'abcde'));
/* => 
Array
(
    [5] => f
    [6] => g
)
*/

你会想调用它两次，第二次是左边的字符串在右边，右边的字符串在左边。输出会有所不同——array_diff只给你左边缺少的东西，所以你必须做两次才能得到整个故事。

score 0 · Accepted Answer

请尝试检查iconv_strlen PHP 标准库函数。不能说东方编码，但它适用于欧洲和东欧语言。无论如何，它给了一些自由！

score 0 · Accepted Answer

$name = "My string";
$name_array = str_split($name);
$name_array_uniqued = array_unique($name_array);
print_r($name_array_uniqued);

容易得多。用户 str_split 将短语转换为以每个字符为元素的数组。然后使用 array_unique 删除重复项。很简单。没什么复杂的。我喜欢这样。

php - 用于从多字节字符串中去除重复字符的 PHP 方法？

3 回答 3

Related

Reference