0

只是一个随机的q。如果有一个来自 Boston Homes ds 的数据框 df,并且我正在尝试对一些列进行 EDA,并设置为变量 feature_cols,之后我可以使用它来检查 na,如何处理? 我有以下内容,这会引发错误: 在此处输入图像描述

这是我希望在上述之后尝试做的事情: 在此处输入图像描述

任何反馈将不胜感激。提前致谢。

4

2 回答 2

1

你的图片有两个问题。首先是 a keyError,因为如果要访问数据框的列子集,则需要传递列表中列的名称而不是元组,因此第一行应该是

feature_cols = df[['RM','ZN','B']]

但是,这将返回一个包含三列的数据框。您想在 for 循环中使用的内容不适用于 pandas。我们通常迭代数据框的行,而不是列,您可以使用一行:

df.isna().sum()

这将打印数据框的所有列名称以及每列中缺失值的数量。当然,如果您只想检查列的子集,您可以。替换df购买df[list_of_columns_names]

于 2022-02-04T21:54:25.137 回答
1

您只需将列的名称存储在数组中,以访问多个列,例如

feature_cols = ['RM','ZN','B']

现在访问它

x = df[feature_cols]

现在要迭代 df 的列,您可以使用

for column in df[feature_cols]:
    print(df[column]) # or anything

根据您更新的评论,。如果您的最终目标是仅查看空计数,则无需循环即可实现。例如

df[feature_cols].info(verbose=True,null_count=True)
于 2022-02-04T21:42:55.640 回答