python - 为 pandas 中的每个类查找最相关的列

Question

以下问题（this one）对我没有帮助。

我有一个大数据集，我想知道哪些列与目标变量最相关。我知道，就我而言，对于目标变量中的每个类，不同的列有不同的影响。

在那个问题中，建议的答案建议使用 LDA。据我了解，它看起来像一个正常的分类算法，所以它不是我需要的

我是什么

In : 
    magic_function("name_of_target_variable_1")
Out :
    ["really_important_column_a", "really_important_column_b" ...]
In : 
    magic_function("name_of_target_variable_2")
Out :
    ["really_important_column_a", "really_important_column_f" ...]

我怎样才能得到这个结果？有没有办法，首先？

score 0 · Accepted Answer

您可以为每个目标变量训练一个RandomForest 分类器（如果目标变量是数字，则为 RandomForest 回归器）。

然后您可以检查每个特征在预测目标变量中的重要性。

score 0 · Accepted Answer

有没有办法，首先？

OP想要做的（特征选择）实际上是一个令人难以置信的长主题，没有官方正确的答案，但有许多不同的可能方法。

所以，是的，它可以做到，不，没有官方的方法来做到这一点。有很多“只是试试这个并检查结果”。这不是 StackOverflow 的问题

python - 为 pandas 中的每个类查找最相关的列

2 回答 2

Related

Reference