python - 使用 pandas/python 导入文本

Question

我正在将一个包含一些文本的表格导入到熊猫数据框中。其中一个字符串包含文本“NF-κB” - 即“kappa”字符（表中的一些文本还包含 alpha 和 beta 等）。

当我在表格中阅读时：

pd.read_table('table_processed.txt', sep='\t')

kappa 字符被转换为 '\xce\xba'，因此当在 iPython 中查看时，字符串的一部分现在读取为 'NF-\xce\xbaB'。

当字符串被视为数据帧的一部分时，有什么方法可以在导入期间维护字符串编码以维护 kappa 字符？

提前致谢

score 1 · Accepted Answer

直接来自文档，尝试使用编码

http://pandas.pydata.org/pandas-docs/dev/io.html#dealing-with-unicode-data

In [1079]: data = 'word,length\nTr\xe4umen,7\nGr\xfc\xdfe,5'

In [1080]: df = pd.read_csv(StringIO(data), encoding='latin-1')

In [1081]: df

      word  length
0  Träumen       7
1    Grüße       5

In [1082]: df['word'][1]
u'Gr\xfc\xdfe'

python - 使用 pandas/python 导入文本

1 回答 1

Related

Reference