我做了一个关于标点符号和正则表达式的问题,但它令人困惑。
假设我有这个文本:
String text = "wor.d1, :word2. wo,rd3? word4!";
我正在这样做:
String parts[] = text.split(" ");
我有这个:
wor.d1, | :word2. | wor,d3? | word4!;
我需要做什么才能拥有这个?(将符号保留在边界处,但仅我指定:.,!?:
,而不是全部)。
wor,d1 | , | : | word2 | . | wor,d3 | ? | word4 | !
更新
我用这些正则表达式得到了一些很好的结果,但它在单词开头的所有标点符号分割之前给出了一个空字符。
有没有办法在一开始就没有这个空字符?
这个正则表达式好,还是有更简单的方法?
public static final String PUNCTUATION_SEPARATOR =
"("
+ "("
+ "(?=^[\"'!?.,;:(){}\\[\\]]+)"
+ "|"
+ "(?<=^[\"'!?.,;:(){}\\[\\]]+)"
+ ")"
+ "|"
+ "("
+ "(?=[\"'!?.,;:(){}\\[\\]]+($|\n))"
+ "|"
+ "(?<=[\"'!?.,;:(){}\\[\\]]+($|\n))"
+ ")"
+ ")";