我需要一个从字符串中删除所有字符(未在模式中列出)但保留外语字母的函数。我知道 preg_replace 有 \p “模式”,但由于某种原因我无法让它工作。
我使用此函数从字符串中删除所有废话:
$main_content=preg_replace("/[^a-zA-Z0-9`~!@#\$%\^&\*\(\)-_=\+\\|\,<\.>\/\?;:'\"\[\]\s]/", "", $main_content); //remove all symbols that do NOT match these
简而言之,该函数应保留所有标准字母/数字和标准符号,如 +-!@#$ 等,并删除所有垃圾,如 © ™ 等。如果有比我使用的更好的方式来编写这样的 preg_replace,请告诉我。
现在,我希望该功能可以保留外语字母,因此我将其修改为
$main_content=preg_replace("/[^\p{L}a-zA-Z0-9`~!@#\$%\^&\*\(\)-_=\+\\|\,<\.>\/\?;:'\"\[\]\s]/", "", $main_content); //remove all symbols that do NOT match these
(您会注意到添加了 \p{L})。不幸的是,它没有按预期工作。当我回显文本时,我看到外语没有被删除(这很好),但它们被转换为�(这很糟糕)。
我如何解决它?