我有一个包含文本、控制字符、数字、变音符号(德语)和其他 utf8 字符的字符串。
我想去掉所有不是“语言的一部分”的 utf8 字符。(非完整列表)“:/\ßä,;\n \t”等特殊字符应全部保留。
可悲的是,stackoverflow 删除了所有这些字符,所以我必须附加一张图片(链接)。
有任何想法吗?非常感谢帮助!
PS:如果有人知道不会杀死那些特殊字符的粘贴服务,我会很乐意上传字符串..我只是找不到..
[编辑]:我认为正则表达式“\P{Cc}”是我想要保留的所有字符。可以反转这个正则表达式,以便返回所有不匹配这个正则表达式的字符吗?