在继续这篇文章之前,了解NaN 和 None 之间的区别很重要。一个是浮点类型,另一个是对象类型。Pandas 更适合使用标量类型,因为这些类型的许多方法都可以向量化。Pandas 确实尝试一致地处理 None 和 NaN,但 NumPy 不能。
我的建议(和安迪的)是坚持使用 NaN。
但是要回答你的问题...
pandas >= 0.18:使用na_values=['-']
参数read_csv
如果您从 CSV/Excel 加载此数据,我有好消息要告诉您。您可以在数据加载期间从根部取消此操作,而不必在后续步骤中使用代码编写修复程序。
大多数pd.read_*
函数(例如read_csv
和read_excel
)都接受一个na_values
属性。
file.csv
A,B
-,1
3,-
2,-
5,3
1,-2
-5,4
-1,-1
-,0
9,0
现在,要将-
字符转换为 NaN,请执行以下操作:
import pandas as pd
df = pd.read_csv('file.csv', na_values=['-'])
df
A B
0 NaN 1.0
1 3.0 NaN
2 2.0 NaN
3 5.0 3.0
4 1.0 -2.0
5 -5.0 4.0
6 -1.0 -1.0
7 NaN 0.0
8 9.0 0.0
其他功能/文件格式也类似。
PS:在 v0.24+ 上,即使您的列有 NaN,您也可以保留整数类型(是的,谈论吃蛋糕和吃蛋糕)。您可以指定dtype='Int32'
df = pd.read_csv('file.csv', na_values=['-'], dtype='Int32')
df
A B
0 NaN 1
1 3 NaN
2 2 NaN
3 5 3
4 1 -2
5 -5 4
6 -1 -1
7 NaN 0
8 9 0
df.dtypes
A Int32
B Int32
dtype: object
dtype 不是传统的 int 类型......而是可以为Nullable 的整数类型。还有其他选择。
处理数值数据:pd.to_numeric
witherrors='coerce
如果您正在处理数字数据,更快的解决方案是使用pd.to_numeric
参数errors='coerce'
,它将无效值(不能转换为数字的值)强制转换为 NaN。
pd.to_numeric(df['A'], errors='coerce')
0 NaN
1 3.0
2 2.0
3 5.0
4 1.0
5 -5.0
6 -1.0
7 NaN
8 9.0
Name: A, dtype: float64
要保留(可为空)整数 dtype,请使用
pd.to_numeric(df['A'], errors='coerce').astype('Int32')
0 NaN
1 3
2 2
3 5
4 1
5 -5
6 -1
7 NaN
8 9
Name: A, dtype: Int32
要强制多列,请使用apply
:
df[['A', 'B']].apply(pd.to_numeric, errors='coerce').astype('Int32')
A B
0 NaN 1
1 3 NaN
2 2 NaN
3 5 3
4 1 -2
5 -5 4
6 -1 -1
7 NaN 0
8 9 0
...并在之后分配结果。
更多信息可以在这个答案中找到。