70

我正在尝试将字符串拆分为单词和标点符号,并将标点符号添加到拆分生成的列表中。

例如:

>>> c = "help, me"
>>> print c.split()
['help,', 'me']

我真正希望列表看起来像:

['help', ',', 'me']

所以,我希望字符串在空格处拆分,标点符号从单词中拆分出来。

我尝试先解析字符串,然后运行拆分:

>>> for character in c:
...     if character in ".,;!?":
...             outputCharacter = " %s" % character
...     else:
...             outputCharacter = character
...     separatedPunctuation += outputCharacter
>>> print separatedPunctuation
help , me
>>> print separatedPunctuation.split()
['help', ',', 'me']

这会产生我想要的结果,但在大文件上速度很慢。

有没有办法更有效地做到这一点?

4

11 回答 11

100

这或多或少是这样做的:

>>> import re
>>> re.findall(r"[\w']+|[.,!?;]", "Hello, I'm a string!")
['Hello', ',', "I'm", 'a', 'string', '!']

诀窍是,不要考虑在哪里拆分字符串,而是要在标记中包含什么。

注意事项:

  • 下划线 (_) 被视为内部单词字符。替换 \w,如果你不想要。
  • 这不适用于字符串中的(单)引号。
  • 将要使用的任何其他标点符号放在正则表达式的右半部分。
  • re 中未明确提及的任何内容都会被默默地删除。
于 2008-12-15T01:53:18.617 回答
43

这是一个支持 Unicode 的版本:

re.findall(r"\w+|[^\w\s]", text, re.UNICODE)

第一个替代方案捕获单词字符序列(由 unicode 定义,因此“ressumé”不会变成['r', 'sum']);第二个捕获单个非单词字符,忽略空格。

请注意,与最佳答案不同,这将单引号视为单独的标点符号(例如 "I'm" -> ['I', "'", 'm'])。这似乎是 NLP 中的标准,所以我认为它是一个特性。

于 2012-01-19T17:58:09.097 回答
8

如果您打算使用英语(或其他一些常用语言)工作,您可以使用NLTK(还有许多其他工具可以做到这一点,例如FreeLing)。

import nltk
nltk.download('punkt')
sentence = "help, me"
nltk.word_tokenize(sentence)
于 2018-11-08T16:16:01.587 回答
7

这是我的条目。

我怀疑这在效率方面的效果如何,或者它是否能涵盖所有情况(注意“!!!”组合在一起;这可能是也可能不是一件好事)。

>>> import re
>>> import string
>>> s = "Helo, my name is Joe! and i live!!! in a button; factory:"
>>> l = [item for item in map(string.strip, re.split("(\W+)", s)) if len(item) > 0]
>>> l
['Helo', ',', 'my', 'name', 'is', 'Joe', '!', 'and', 'i', 'live', '!!!', 'in', 'a', 'button', ';', 'factory', ':']
>>>

如果您要逐行执行此操作,则一项明显的优化是事先编译正则表达式(使用 re.compile)。

于 2008-12-15T01:30:32.690 回答
1

这是对您的实施的一个小更新。如果您尝试做任何更详细的事情,我建议您查看 le dorfier 建议的 NLTK。

这可能只会快一点,因为使用 ''.join() 代替 +=,后者已知更快

import string

d = "Hello, I'm a string!"

result = []
word = ''

for char in d:
    if char not in string.whitespace:
        if char not in string.ascii_letters + "'":
            if word:
                    result.append(word)
            result.append(char)
            word = ''
        else:
            word = ''.join([word,char])

    else:
        if word:
            result.append(word)
            word = ''
print result
['Hello', ',', "I'm", 'a', 'string', '!']
于 2008-12-15T01:05:11.197 回答
1

这对我有用

import re

i = 'Sandra went to the hallway.!!'
l = re.split('(\W+?)', i)
print(l)

empty = ['', ' ']
l = [el for el in l if el not in empty]
print(l)

Output:
['Sandra', ' ', 'went', ' ', 'to', ' ', 'the', ' ', 'hallway', '.', '', '!', '', '!', '']
['Sandra', 'went', 'to', 'the', 'hallway', '.', '!', '!']
于 2020-04-21T08:41:57.840 回答
0

我认为您可以在NLTK中找到您能想象到的所有帮助,特别是因为您使用的是 python。本教程中对此问题进行了很好的全面讨论。

于 2008-12-15T00:34:08.840 回答
0

我想出了一种方法来标记所有不需要硬编码的单词和\W+模式:\b

>>> import re
>>> sentence = 'Hello, world!'
>>> tokens = [t.strip() for t in re.findall(r'\b.*?\S.*?(?:\b|$)', sentence)]
['Hello', ',', 'world', '!']

.*?\S.*?是一个匹配任何非空格的模式,$如果它是标点符号,则添加它以匹配字符串中的最后一个标记。

但请注意以下内容——这会将包含多个符号的标点符号分组:

>>> print [t.strip() for t in re.findall(r'\b.*?\S.*?(?:\b|$)', '"Oh no", she said')]
['Oh', 'no', '",', 'she', 'said']

当然,您可以使用以下方法查找和拆分此类组:

>>> for token in [t.strip() for t in re.findall(r'\b.*?\S.*?(?:\b|$)', '"You can", she said')]:
...     print re.findall(r'(?:\w+|\W)', token)

['You']
['can']
['"', ',']
['she']
['said']
于 2014-04-15T19:11:22.487 回答
0

试试这个:

string_big = "One of Python's coolest features is the string format operator  This operator is unique to strings"
my_list =[]
x = len(string_big)
poistion_ofspace = 0
while poistion_ofspace < x:
    for i in range(poistion_ofspace,x):
        if string_big[i] == ' ':
            break
        else:
            continue
    print string_big[poistion_ofspace:(i+1)]
    my_list.append(string_big[poistion_ofspace:(i+1)])
    poistion_ofspace = i+1

print my_list
于 2017-04-18T09:03:02.423 回答
-1

您是否尝试过使用正则表达式?

http://docs.python.org/library/re.html#re-syntax


顺便一提。为什么你需要第二个“,”?你会知道,在写完每个文本之后,即

[0]

","

[1]

","

因此,如果您想添加“,”,您可以在使用数组时在每次迭代后添加。

于 2008-12-14T23:34:49.973 回答
-1

如果您不允许导入任何东西,请使用它!

word = "Hello,there"
word = word.replace("," , " ," )
word = word.replace("." , " .")
return word.split()
于 2019-11-27T09:14:42.863 回答