1

我正在将一个包含一些文本的表格导入到熊猫数据框中。其中一个字符串包含文本“NF-κB” - 即“kappa”字符(表中的一些文本还包含 alpha 和 beta 等)。

当我在表格中阅读时:

pd.read_table('table_processed.txt', sep='\t')

kappa 字符被转换为 '\xce\xba',因此当在 iPython 中查看时,字符串的一部分现在读取为 'NF-\xce\xbaB'。

当字符串被视为数据帧的一部分时,有什么方法可以在导入期间维护字符串编码以维护 kappa 字符?

提前致谢

4

1 回答 1

1

直接来自文档,尝试使用编码

http://pandas.pydata.org/pandas-docs/dev/io.html#dealing-with-unicode-data

In [1079]: data = 'word,length\nTr\xe4umen,7\nGr\xfc\xdfe,5'

In [1080]: df = pd.read_csv(StringIO(data), encoding='latin-1')

In [1081]: df

      word  length
0  Träumen       7
1    Grüße       5

In [1082]: df['word'][1]
u'Gr\xfc\xdfe'
于 2013-06-29T13:48:19.277 回答