如何使用空格作为分隔符正确拆分包含带有特殊字符的句子的字符串?使用正则表达式拆分方法我无法获得所需的结果。
示例代码:
# -*- coding: utf-8 -*-
import re
s="La felicità è tutto" # "The happiness is everything" in italian
l=re.compile("(\W)").split(s)
print " s> "+s
print " wordlist> "+str(l)
for i in l:
print " word> "+i
输出是:
s> La felicità è tutto
wordlist> ['La', ' ', 'felicit', '\xc3', '', '\xa0', '', ' ', '', '\xc3', '', '\xa8', '', ' ', 'tutto']
word> La
word>
word> felicit
word> Ã
word>
word> ?
word>
word>
word>
word> Ã
word>
word> ?
word>
word>
word> tutto
当我正在寻找类似的输出时:
s> La felicità è tutto
wordlist> ['La', ' ', 'felicità', ' ', 'è', ' ', 'tutto']
word> La
word>
word> felicità
word>
word> è
word>
word> tutto
需要注意的是, s 是从另一个方法返回的字符串,所以我不能像这样强制编码
s=u"La felicità è tutto"
在 Unicode 和 reg-ex 的官方 python 文档中,我没有找到令人满意的解释。
谢谢。
亚历山德罗