regex - 正则表达式解析小说文本

Question

我正在尝试从包含小说文本的文件中读取。我想阅读每个连续的单词，但当然，小说中有标点符号这一事实使这变得困难。

我只需要阅读小说中的单词，因此请忽略“，”“！”之类的字符。和“？”，但我需要包含某些非字母字符，例如实际上是单词一部分的撇号。

我对正则表达式不是很好，但我的感觉是这个正则表达式只抓取字符，但不考虑撇号：

[^A-Za-z]+

谁能帮我得到一个正则表达式，它将用单词分隔，忽略标点符号，但保留撇号和其他构成单词的字符？

score 1 · Accepted Answer

您的模式应如下所示：

\b[a-zA-Z]+[\']*[a-zA-Z]*\b

它考虑了单词边界并允许使用 1 个撇号。其他特殊字符可以放在第二组方括号中。

score -1 · Accepted Answer

[]只需在括号内包含您想要包含的其他特殊字符。某些字符可能需要转义。我在下面为您添加了撇号：

/([^A-Za-z']+)/

2 回答 2