我有一个句子,我希望从中提取所有单词。我将一个词定义为 [a-zA-Z],但一个词也可能包含撇号。撇号本身不是一个词。我正在用 Python3 编程。
输入文本:
Don't-thread 0 '' ' 'on \r\nme!
应该给:
Don't
thread
on
me
关于正则表达式拆分。然后我将使用 python 将其翻译如下:
Don't -> dont
thread -> thread
on -> on
me -> me
更多输入:
''Kay', he said. 'What're you goin' to do?'
正则表达式拆分和 python 翻译应该给出:
''Kay' -> kay
he -> he
said -> said
'What're -> whatre
you -> you
goin' -> going
to -> to
do -> do
这是我目前使用的:
\b(\S+)\b
这显然比我感兴趣的要匹配得多。
更新:
单词可以以撇号开头。比如“抓住他们!”