0

我正在尝试从包含小说文本的文件中读取。我想阅读每个连续的单词,但当然,小说中有标点符号这一事实使这变得困难。

我只需要阅读小说中的单词,因此请忽略“,”“!”之类的字符。和“?”,但我需要包含某些非字母字符,例如实际上是单词一部分的撇号。

我对正则表达式不是很好,但我的感觉是这个正则表达式只抓取字符,但不考虑撇号:

[^A-Za-z]+

谁能帮我得到一个正则表达式,它将用单词分隔,忽略标点符号,但保留撇号和其他构成单词的字符?

4

2 回答 2

1

您的模式应如下所示:

\b[a-zA-Z]+[\']*[a-zA-Z]*\b

它考虑了单词边界并允许使用 1 个撇号。其他特殊字符可以放在第二组方括号中。

于 2012-09-17T21:49:14.073 回答
-1

[]只需在括号内包含您想要包含的其他特殊字符。某些字符可能需要转义。我在下面为您添加了撇号:

/([^A-Za-z']+)/
于 2012-09-17T21:44:46.917 回答