python - Python中多列数据框的EDA for循环

Question

只是一个随机的q。如果有一个来自 Boston Homes ds 的数据框 df，并且我正在尝试对一些列进行 EDA，并设置为变量 feature_cols，之后我可以使用它来检查 na，如何处理? 我有以下内容，这会引发错误：

这是我希望在上述之后尝试做的事情：

任何反馈将不胜感激。提前致谢。

score 1 · Accepted Answer

你的图片有两个问题。首先是 a keyError，因为如果要访问数据框的列子集，则需要传递列表中列的名称而不是元组，因此第一行应该是

feature_cols = df[['RM','ZN','B']]

但是，这将返回一个包含三列的数据框。您想在 for 循环中使用的内容不适用于 pandas。我们通常迭代数据框的行，而不是列，您可以使用一行：

df.isna().sum()

这将打印数据框的所有列名称以及每列中缺失值的数量。当然，如果您只想检查列的子集，您可以。替换df购买df[list_of_columns_names]。

score 1 · Accepted Answer

您只需将列的名称存储在数组中，以访问多个列，例如

feature_cols = ['RM','ZN','B']

现在访问它

x = df[feature_cols]

现在要迭代 df 的列，您可以使用

for column in df[feature_cols]:
    print(df[column]) # or anything

根据您更新的评论，。如果您的最终目标是仅查看空计数，则无需循环即可实现。例如

df[feature_cols].info(verbose=True,null_count=True)

2 回答 2