0

我有一个由看起来像逗号的符号分隔的日文汉字字符列表。我想使用拆分功能来获取存储在列表中的信息。

如果文本是英文的,那么我想要以下内容:

x = 'apple,pear,orange'
x.split(',')

但是,这不适用于以下情况:

japanese = '東北カネカ売,フジヤ商店,橋谷,旭販売,東洋装'

我已将编码设置为

# -*- coding: utf-8 -*-

而且我可以很好地阅读日文字符。

4

2 回答 2

3

它实际上不是逗号

>>> u','
    u'\uff0c'

如果您将字符串设为 unicode,则可以将其拆分:

>>> u'東北カネカ売,フジヤ商店,橋谷,旭販売,東洋装'.split(u',')
    [u'\u6771\u5317\u30ab\u30cd\u30ab\u58f2',
 u'\u30d5\u30b8\u30e4\u5546\u5e97',
 u'\u6a4b\u8c37',
 u'\u65ed\u8ca9\u58f2',
 u'\u6771\u6d0b\u88c5']

Python 3 也可以:

>>> '東北カネカ売,フジヤ商店,橋谷,旭販売,東洋装'.split(',')
    ['東北カネカ売', 'フジヤ商店', '橋谷', '旭販売', '東洋装']
于 2013-03-30T04:15:03.240 回答
1

这对我有用:

for j in japanese.split('\xef\xbc\x8c'): print j

这里的“逗号”是'\xef\xbc\x8c'

于 2013-03-30T04:18:36.533 回答