我对一列“ postcode
”进行了一次性编码,我想看看它与标签编码为:(mass customer = 0, affluent customer = 1 and high net worth customer = 2
)的财富段之间的相关性。
我想看看邮政编码和客户的财富之间是否存在相关性。问题是,我有很多列邮政编码,因为我有一个热编码。命名约定是 postcode_XXXX(XXXX 是 4 位数字)
我可以写什么来只找到这两个变量之间的相关性?我在数据框中有 100 多个其他列,所以我不想简单地使用该df.corr()
方法。