0

我有一个用 scikit-learn 训练的 SGDClassifier 模型。我提取特征名称.get_feature_names()和系数.coef_

我将 2 列组合在一个数据框中,如下所示:

feature     value
hiroshima   3.918584
wildfire    3.287680
earthquake  3.256817
massacre    3.186762
storm       3.124809
...         ...
job         -1.696438
song        -1.736640   
as          -1.956571   
nowplaying  -2.028240   
write       -2.263968

我想知道如何解释特征重要性?正的高值是什么意思?低负值是什么意思?

4

1 回答 1

1

SGDClassifier 拟合线性模型,这意味着决策本质上是基于

SUM_i w_i f_i + b

w_i附加到 feature 的权重在哪里f_i,因此您可以将这些数字解释为正/负类的字面“投票”,其比例与它们的绝对值成比例。您的分类器所做的只是添加这些权重,然后它_intercept从您的模型中添加价值,并根据符号进行分类。

于 2021-03-11T01:32:44.463 回答