python - One-Hot 编码和相关性

Question

我对一列“ postcode”进行了一次性编码，我想看看它与标签编码为：（mass customer = 0, affluent customer = 1 and high net worth customer = 2）的财富段之间的相关性。

我想看看邮政编码和客户的财富之间是否存在相关性。问题是，我有很多列邮政编码，因为我有一个热编码。命名约定是 postcode_XXXX（XXXX 是 4 位数字）

我可以写什么来只找到这两个变量之间的相关性？我在数据框中有 100 多个其他列，所以我不想简单地使用该df.corr()方法。

score 1 · Accepted Answer

如果您只想要每个邮政编码列与财富段列的相关值，您可以简单地迭代包含邮政编码的列名，在每次迭代中过滤数据帧并df.corr()在过滤后的数据帧上使用。

前任：

cols = [c for c in df.columns if c.startswith('postcode_')]

for col in cols:
    filter_df = df[[col, 'wealth_segment']]
    print(filter_df.corr())

1 回答 1