我有一个包含许多不同字符的字符串,我希望能够通过 unicode 中 [Po] 类别中的所有字符来拆分字符串。
我怎样才能轻松做到这一点(即我想避免枚举此列表中的所有字符,然后创建一个巨大的字符数组,然后再拆分)?我还可以想象,这些字符的存储方式有一些共同的属性,这会使这更容易。
那么,如何通过所有 unicode 标点字符分割字符串?
.NET 正则表达式引擎支持该Po
类别,因此您可以简单地执行以下操作:
Regex.Split("this,is.a!test", @"\p{Po}") // [ "this", "is", "a", "test" ]