2

我需要从字符串中删除所有非字母和标记(Unicode 类别)字符。目前我正在拆分并随后加入一个字符串,如下所示:

text.split("[\\p{P} \\t\\n\\r]")

然而,我的正则表达式......严重不足。请帮忙。

编辑 我认为这会起作用:

text.split("[\\P{M}\\P{L}]")
4

1 回答 1

3

试试这个:

text = text.replaceAll("[^\\p{L}\\p{M}]", "");

在http://www.regular-expressions.info/unicode.html中查看更多信息

于 2012-05-28T03:48:03.307 回答