2

我无法在下面的代码中拆分 unicode 字符 \u2013

actualdata=metatry['content'].split("-")
print "^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^"+actualdata[0]
dat=actualdata[0].split("\u2013")
print "^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^"+dat[0]
productlist.append(dat[0])

即使它存在,输出也不会摆脱 \u2013 如果有人在这方面帮助我会有所帮助。

4

2 回答 2

2

尝试添加'u''\u2013'asmetatry['content']是一个 unicode 字符串:

u"Samsung Galaxy Note II \u2013 Latest Smartphone in India ".split(u'\u2013')
于 2013-01-24T10:02:25.223 回答
1

metatry['content']是一个unicode 对象,而不是一个字符串。所以你的split电话失败了:

>>> s = u"Samsung Galaxy Note II \u2013 Latest Smartphone in India "
>>> s.split("\u2013")
[u'Samsung Galaxy Note II \u2013 Latest Smartphone in India ']

您必须将其拆分为unicode字符\u2013

>>> s = u"Samsung Galaxy Note II \u2013 Latest Smartphone in India "
>>> s.split(u"\u2013")
[u'Samsung Galaxy Note II ', u' Latest Smartphone in India ']

PS:你说你和 Beautiful Soup 合作。Beautiful Soup 仅使用 unicode 字符串

于 2013-01-24T10:03:23.037 回答