9

有什么简单的方法可以截断汉字我发现那个正则表达式但它没有按预期工作

<?php
$data1='疯狂的管道Test';
$data2='睡眠帮手-背景乐Test';

echo str_replace(preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data1),'',$data1)
."<br>\n".
str_replace(preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data2),'',$data2);
exit;

它适用于 data1 但不适用于 data2

4

3 回答 3

17

您可以使用Unicode 字符属性Han应该适合您):

preg_replace("/\p{Han}+/u", '', $data)

工作示例:http: //ideone.com/uEiIV5

于 2013-07-29T14:50:29.740 回答
8

试试这个代码(在线版@ideone.com):

<?php
$data1='疯狂的管道Test';
$data2='睡眠帮手-背景乐Test';

echo preg_replace("/[\x{4e00}-\x{9fa5}]+/u", '', $data1), "\n";
echo preg_replace("/[\x{4e00}-\x{9fa5}]+/u", '', $data2);

// Better use this (credits to Kobi's answer below)
preg_replace("/\p{Han}+/u", '', $data)

我已经^从正则表达式中删除了,所以我们不再需要str_replace()了。

您的旧正则表达式匹配所有非中文字符,因此preg_replace()在返回的字符串中只留下中文字符。为了获得最终结果,您必须将找到的汉字替换为空字符串。

preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data1) // returns 疯狂的管道
str_replace('疯狂的管道', '', $data1); // gives us Test

第二个正则表达式再次匹配所有非中文字符。但是现在,它们不是按顺序排列的!

preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data2) // returns 睡眠帮手背景乐

而且这个字符串再也找不到$data2了,因此它不起作用。

于 2013-07-29T14:41:16.030 回答
0

这个也应该做的工作
/[^\u4E00-\u9FFF]+/

于 2013-07-29T14:46:05.643 回答