Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在尝试从包含小说文本的文件中读取。我想阅读每个连续的单词,但当然,小说中有标点符号这一事实使这变得困难。
我只需要阅读小说中的单词,因此请忽略“,”“!”之类的字符。和“?”,但我需要包含某些非字母字符,例如实际上是单词一部分的撇号。
我对正则表达式不是很好,但我的感觉是这个正则表达式只抓取字符,但不考虑撇号:
[^A-Za-z]+
谁能帮我得到一个正则表达式,它将用单词分隔,忽略标点符号,但保留撇号和其他构成单词的字符?
您的模式应如下所示:
\b[a-zA-Z]+[\']*[a-zA-Z]*\b
它考虑了单词边界并允许使用 1 个撇号。其他特殊字符可以放在第二组方括号中。
[]只需在括号内包含您想要包含的其他特殊字符。某些字符可能需要转义。我在下面为您添加了撇号:
[]
/([^A-Za-z']+)/