我正在使用熊猫来读取 csv 文件。数据是数字,但以文本形式存储在 csv 文件中。有些值在错误或缺失时是非数字的。如何过滤掉这些值并将剩余数据转换为整数。
我认为有一种比循环遍历所有值并isdigit()
用于测试它们是否为数字的更好/更快的方法。
pandas 或 numpy 是否有办法识别读者的不良价值观?如果没有,最简单的方法是什么?我是否必须指定 dtypes 才能完成这项工作?
您可以使用 传递要视为缺失的自定义值列表pandas.read_csv
。或者,您可以将函数传递给converters
参数。
pandas.read_csv
有参数na_values
:
na_values : list-like, default None
List of additional strings to recognize as NA/NaN
您可以在其中定义这些不良值。
NumPygenfromtxt()
专门为此目的提供了该功能。链接文档的第一句话:
从文本文件加载数据,缺失值按指定处理。