1

我正在使用熊猫来读取 csv 文件。数据是数字,但以文本形式存储在 csv 文件中。有些值在错误或缺失时是非数字的。如何过滤掉这些值并将剩余数据转换为整数。

我认为有一种比循环遍历所有值并isdigit()用于测试它们是否为数字的更好/更快的方法。

pandas 或 numpy 是否有办法识别读者的不良价值观?如果没有,最简单的方法是什么?我是否必须指定 dtypes 才能完成这项工作?

4

3 回答 3

3

您可以使用 传递要视为缺失的自定义值列表pandas.read_csv。或者,您可以将函数传递给converters参数。

于 2012-03-29T14:55:21.097 回答
3

pandas.read_csv有参数na_values

na_values : list-like, default None
    List of additional strings to recognize as NA/NaN

您可以在其中定义这些不良值。

于 2012-03-30T10:54:02.053 回答
1

NumPygenfromtxt()专门为此目的提供了该功能。链接文档的第一句话:

从文本文件加载数据,缺失值按指定处理。

于 2012-03-29T14:45:40.600 回答