我有一个由看起来像逗号的符号分隔的日文汉字字符列表。我想使用拆分功能来获取存储在列表中的信息。
如果文本是英文的,那么我想要以下内容:
x = 'apple,pear,orange'
x.split(',')
但是,这不适用于以下情况:
japanese = '東北カネカ売,フジヤ商店,橋谷,旭販売,東洋装'
我已将编码设置为
# -*- coding: utf-8 -*-
而且我可以很好地阅读日文字符。
我有一个由看起来像逗号的符号分隔的日文汉字字符列表。我想使用拆分功能来获取存储在列表中的信息。
如果文本是英文的,那么我想要以下内容:
x = 'apple,pear,orange'
x.split(',')
但是,这不适用于以下情况:
japanese = '東北カネカ売,フジヤ商店,橋谷,旭販売,東洋装'
我已将编码设置为
# -*- coding: utf-8 -*-
而且我可以很好地阅读日文字符。
它实际上不是逗号:
>>> u','
u'\uff0c'
如果您将字符串设为 unicode,则可以将其拆分:
>>> u'東北カネカ売,フジヤ商店,橋谷,旭販売,東洋装'.split(u',')
[u'\u6771\u5317\u30ab\u30cd\u30ab\u58f2',
u'\u30d5\u30b8\u30e4\u5546\u5e97',
u'\u6a4b\u8c37',
u'\u65ed\u8ca9\u58f2',
u'\u6771\u6d0b\u88c5']
Python 3 也可以:
>>> '東北カネカ売,フジヤ商店,橋谷,旭販売,東洋装'.split(',')
['東北カネカ売', 'フジヤ商店', '橋谷', '旭販売', '東洋装']
这对我有用:
for j in japanese.split('\xef\xbc\x8c'): print j
这里的“逗号”是'\xef\xbc\x8c'
。