python - 大 TSV 文件中大多数整数字符串列的不一致 pandas read_csv dtype 推断

Question

我有一个制表符分隔的文件，其中有一列应该被解释为字符串，但许多条目都是整数。对于小文件，read_csv 在看到一些非整数值后正确地将列解释为字符串，但对于较大的文件，这不起作用：

import pandas as pd
df = pd.DataFrame({'a':['1']*100000 + ['X']*100000 + ['1']*100000, 'b':['b']*300000})
df.to_csv('test', sep='\t', index=False, na_rep='NA')
df2 = pd.read_csv('test', sep='\t')
print df2['a'].unique()
for a in df2['a'][262140:262150]:
    print repr(a)

输出：

['1' 'X' 1]
'1'
'1'
'1'
'1'
1
1
1
1
1
1

有趣的是 262144 是 2 的幂，所以我认为推理和转换是分块进行的，但会跳过一些块。

我相当肯定这是一个错误，但想要一个可能使用引用的解决方法，尽管添加 quoting=csv.QUOTE_NONNUMERIC 进行读取和写入并不能解决问题。理想情况下，我可以通过引用我的字符串数据来解决这个问题，并以某种方式强制 pandas 不对引用的数据进行任何推断。

使用熊猫 0.12.0

score 6 · Accepted Answer

为避免 Pandas 推断您的数据类型，请提供以下converters参数read_csv：

converters: 字典。可选的

用于转换某些列中的值的函数的字典。键可以是整数或列标签

对于您的文件，这看起来像：

df2 = pd.read_csv('test', sep='\t', converters={'a':str})

我对文档的阅读是，您不需要为每一列指定转换器。Pandas 应该继续推断未指定列的数据类型。

score 5 · Accepted Answer

你在这里欺骗了 read_csv 解析器（公平地说，我认为无论你扔什么，它都不能总是正确输出）......但是是的，它可能是一个错误！

正如@Steven 指出的那样，您可以使用 converts 的read_csv参数：

df2 = pd.read_csv('test', sep='\t', converters={'a': str})

一个懒惰的解决方案是在您阅读文件后对其进行修补：

In [11]: df2['a'] = df2['a'].astype('str')

# now they are equal
In [12]: pd.util.testing.assert_frame_equal(df, df2)

注意：如果您正在寻找存储 DataFrames 的解决方案，例如在会话之间，pickle 和 HDF5Store 都是出色的解决方案，它们不会受到这些类型的解析错误的影响（并且会更快）。请参阅：如何使用 PANDAS、Python 存储数据帧

python - 大 TSV 文件中大多数整数字符串列的不一致 pandas read_csv dtype 推断

2 回答 2

Related

Reference