0

以下问题(this one)对我没有帮助。

我有一个大数据集,我想知道哪些列与目标变量最相关。我知道,就我而言,对于目标变量中的每个类,不同的列有不同的影响。

在那个问题中,建议的答案建议使用 LDA。据我了解,它看起来像一个正常的分类算法,所以它不是我需要的

我是什么

In : 
    magic_function("name_of_target_variable_1")
Out :
    ["really_important_column_a", "really_important_column_b" ...]
In : 
    magic_function("name_of_target_variable_2")
Out :
    ["really_important_column_a", "really_important_column_f" ...]

我怎样才能得到这个结果?有没有办法,首先?

4

2 回答 2

0

您可以为每个目标变量训练一个RandomForest 分类器(如果目标变量是数字,则为 RandomForest 回归器)。

然后您可以检查每个特征在预测目标变量中的重要性

于 2019-10-11T13:33:52.173 回答
0

有没有办法,首先?

OP想要做的(特征选择)实际上是一个令人难以置信的长主题,没有官方正确的答案,但有许多不同的可能方法。

所以,是的,它可以做到,不,没有官方的方法来做到这一点。有很多“只是试试这个并检查结果”。这不是 StackOverflow 的问题

于 2020-04-29T04:35:23.423 回答