只是一个随机的q。如果有一个来自 Boston Homes ds 的数据框 df,并且我正在尝试对一些列进行 EDA,并设置为变量 feature_cols,之后我可以使用它来检查 na,如何处理? 我有以下内容,这会引发错误:
任何反馈将不胜感激。提前致谢。
你的图片有两个问题。首先是 a keyError
,因为如果要访问数据框的列子集,则需要传递列表中列的名称而不是元组,因此第一行应该是
feature_cols = df[['RM','ZN','B']]
但是,这将返回一个包含三列的数据框。您想在 for 循环中使用的内容不适用于 pandas。我们通常迭代数据框的行,而不是列,您可以使用一行:
df.isna().sum()
这将打印数据框的所有列名称以及每列中缺失值的数量。当然,如果您只想检查列的子集,您可以。替换df
购买df[list_of_columns_names]
。
您只需将列的名称存储在数组中,以访问多个列,例如
feature_cols = ['RM','ZN','B']
现在访问它
x = df[feature_cols]
现在要迭代 df 的列,您可以使用
for column in df[feature_cols]:
print(df[column]) # or anything
根据您更新的评论,。如果您的最终目标是仅查看空计数,则无需循环即可实现。例如
df[feature_cols].info(verbose=True,null_count=True)