python - 用 unicode 字符分割的 split 函数

Question

我无法在下面的代码中拆分 unicode 字符 \u2013

actualdata=metatry['content'].split("-")
print "^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^"+actualdata[0]
dat=actualdata[0].split("\u2013")
print "^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^"+dat[0]
productlist.append(dat[0])

即使它存在，输出也不会摆脱 \u2013 如果有人在这方面帮助我会有所帮助。

score 2 · Accepted Answer

尝试添加'u'到'\u2013'asmetatry['content']是一个 unicode 字符串：

u"Samsung Galaxy Note II \u2013 Latest Smartphone in India ".split(u'\u2013')

score 1 · Accepted Answer

metatry['content']是一个unicode 对象，而不是一个字符串。所以你的split电话失败了：

>>> s = u"Samsung Galaxy Note II \u2013 Latest Smartphone in India "
>>> s.split("\u2013")
[u'Samsung Galaxy Note II \u2013 Latest Smartphone in India ']

您必须将其拆分为unicode字符\u2013：

>>> s = u"Samsung Galaxy Note II \u2013 Latest Smartphone in India "
>>> s.split(u"\u2013")
[u'Samsung Galaxy Note II ', u' Latest Smartphone in India ']

PS：你说你和 Beautiful Soup 合作。Beautiful Soup 仅使用 unicode 字符串。

python - 用 unicode 字符分割的 split 函数

2 回答 2

Related

Reference