在 PHP中,字母前后的变音符号构成单词边界 ( )\b
,这不是所需的行为。在其他编程语言中是否正常?(我知道大多数语言都存在\b
和问题\w
)我应该如何有效地解决这个问题?
从 Unicode 的角度来看,哪些 Unicode 类别构成了单词边界?
这是一个例子:
<?php
preg_match_all('#\bج\b#u','مَجْل',$t); // the font of this site does not display diacritics
var_dump($t);