python - read_fwf()/read_csv()/read_table() 中的na_values 会在转换器函数执行后进行转换吗？

Question

我想从固定宽度的平面文件中读取数据框。这是一个对性能有些敏感的操作。

我希望从列值中删除所有空白空格。删除该空格后，我希望将空白字符串转换为NaN或None值。这是我的两个想法：

pd.read_fwf(path, colspecs=markers, names=columns,
            converters=create_convert_dict(columns))

def create_convert_dict(columns):
    convert_dict = {}
    for col in columns:
        convert_dict[col] = null_convert
        return convert_dict

def null_convert(value):
    value = value.strip()
    if value == "":
        return None
    else:
        return value

或者：

pd.read_fwf(path, colspecs=markers, names=columns, na_values='',
            converters=create_convert_dict(columns))

def create_convert_dict(columns):
    convert_dict = {}
    for col in columns:
        convert_dict[col] = col_strip
    return convert_dict

def col_strip(value):
    return value.strip()

第二个选项取决于在 na_values 之前评估的转换器（去除空格）。

我想知道第二个是否可以工作。我很好奇的原因是因为它似乎更好地保留NaN具有与Null无相反的价值。

对于如何执行此操作（剥离空格然后将空白字符串转换为 NaN），我也愿意接受任何其他建议。

我目前无法访问安装了 pandas 的计算机，这就是为什么我无法自己测试它的原因。

score 1 · Accepted Answer

对于固定宽度的文件，不需要做任何特殊的事情来去除空白，或者处理缺失的字段。下面是一个固定宽度文件的小示例，每列三列，宽度为 5。有尾随和前导空格 + 缺失数据。

In [57]: data = """\
A    B     C     
 0    foo       
3    bar     2.0
  1        3.0
"""

In [58]: df = pandas.read_fwf(StringIO(data), widths=[5, 5, 5])

In [59]: df
Out[59]: 
   A    B   C
0  0  foo NaN
1  3  bar   2
2  1  NaN   3

In [60]: df.dtypes
Out[60]: 
A      int64
B     object
C    float64

python - read_fwf()/read_csv()/read_table() 中的na_values 会在转换器函数执行后进行转换吗？

1 回答 1

Related

Reference