python - 在 python pandas 中读取 csv 并处理错误值

Question

我正在使用熊猫来读取 csv 文件。数据是数字，但以文本形式存储在 csv 文件中。有些值在错误或缺失时是非数字的。如何过滤掉这些值并将剩余数据转换为整数。

我认为有一种比循环遍历所有值并isdigit()用于测试它们是否为数字的更好/更快的方法。

pandas 或 numpy 是否有办法识别读者的不良价值观？如果没有，最简单的方法是什么？我是否必须指定 dtypes 才能完成这项工作？

score 3 · Accepted Answer

您可以使用传递要视为缺失的自定义值列表pandas.read_csv。或者，您可以将函数传递给converters参数。

score 3 · Accepted Answer

pandas.read_csv有参数na_values：

na_values : list-like, default None
    List of additional strings to recognize as NA/NaN

您可以在其中定义这些不良值。

score 1 · Accepted Answer

NumPygenfromtxt()专门为此目的提供了该功能。链接文档的第一句话：

从文本文件加载数据，缺失值按指定处理。

3 回答 3