python - Pandas read_csv 在具有空字符的列上失败

Question

下面的 y 列应该是 ['Reg', 'Reg', 'Swp', 'Swp']

In [1]: pd.read_csv('/tmp/test3.csv')  
Out[1]:  
x,y  
 ^@^@^@,Reg  
 ^@^@^@,Reg  
I,Swp  
I,Swp  

In [2]: ! cat /tmp/test3.csv  
     x    y  
0  
1  NaN  NaN  
2    I  Swp  
3    I  Swp    

In [3]: f = open('/tmp/test3.csv', 'rb'); print(repr(f.read()))  
'x,y\n \x00\x00\x00,Reg\n \x00\x00\x00,Reg\nI,Swp\nI,Swp\n'

score 6 · Accepted Answer

是的，我可以重现该问题，但不知道如何使用pd.read_csv. 这是一种解决方法：

In [46]: import numpy as np
In [47]: arr = np.genfromtxt('test3.csv', delimiter = ',', 
                             dtype = None, names = True)

In [48]: df = pd.DataFrame(arr)

In [49]: df
Out[49]: 
   x    y
0     Reg
1     Reg
2  I  Swp
3  I  Swp

请注意，names = Truecsv 的第一个有效行被解释为列名（因此不会影响后续行中值的 dtype。）因此，如果 csv 文件包含数字数据，例如

In [22]: with open('/tmp/test.csv','r') as f:
   ....:     print(repr(f.read()))
   ....:     
'x,y,z\n \x00\x00\x00,Reg,1\n \x00\x00\x00,Reg,2\nI,Swp,3\nI,Swp,4\n'

然后 genfromtxt 将为第三列分配一个数字 dtype（<i4在这种情况下）。

In [19]: arr = np.genfromtxt('/tmp/test.csv', delimiter = ',', dtype = None, names = True)

In [20]: arr
Out[20]: 
array([('', 'Reg', 1), ('', 'Reg', 2), ('I', 'Swp', 3), ('I', 'Swp', 4)], 
      dtype=[('x', '|S3'), ('y', '|S3'), ('z', '<i4')])

但是，如果数字数据与字节混合，'\x00'那么 genfromtxt 将无法将此列识别为数字，因此将求助于分配字符串 dtype。dtype不过，您可以通过手动分配参数来强制列的 dtype 。例如，

In [11]: arr = np.genfromtxt('/tmp/test.csv', delimiter = ',', dtype = [('x', '|i4'), ('y', '|S3')], names = True)

将第一列设置x为具有 dtype |i4（4 字节整数），将第二列y设置为具有 dtype |S3（3 字节字符串）。有关可用 dtype 的更多信息，请参阅此文档页面。

python - Pandas read_csv 在具有空字符的列上失败

1 回答 1

Related

Reference