我正在尝试对一串英文文本进行标记,以便我可以得到一个没有任何标点符号的单词序列,但同时我想留下收缩(如don't和won't)和所有格名词(如史蒂夫和德鲁的)完好无损。我正在尝试使用正则表达式来解决这个问题,但我对它们还是陌生的。
基本上,我想要一个正则表达式,它将匹配所有非字母数字字符序列,除了被字母数字字符包围的撇号,例如前面提到的示例。可以用正则表达式做到这一点吗?
我正在尝试对一串英文文本进行标记,以便我可以得到一个没有任何标点符号的单词序列,但同时我想留下收缩(如don't和won't)和所有格名词(如史蒂夫和德鲁的)完好无损。我正在尝试使用正则表达式来解决这个问题,但我对它们还是陌生的。
基本上,我想要一个正则表达式,它将匹配所有非字母数字字符序列,除了被字母数字字符包围的撇号,例如前面提到的示例。可以用正则表达式做到这一点吗?