12

我使用 sklearn 来绘制森林的特征重要性。数据框被命名为“心脏”。这里是提取排序特征列表的代码:

importances = extc.feature_importances_
indices = np.argsort(importances)[::-1]
print("Feature ranking:")

for f in range(heart_train.shape[1]):
    print("%d. feature %d (%f)" % (f + 1, indices[f], importances[indices[f]]))

然后我以这种方式绘制列表:

f, ax = plt.subplots(figsize=(11, 9))
plt.title("Feature ranking", fontsize = 20)
plt.bar(range(heart_train.shape[1]), importances[indices],
    color="b", 
    align="center")
plt.xticks(range(heart_train.shape[1]), indices)
plt.xlim([-1, heart_train.shape[1]])
plt.ylabel("importance", fontsize = 18)
plt.xlabel("index of the feature", fontsize = 18)

我得到这样的情节:

在此处输入图像描述

我的问题是:我怎样才能用功能的名称替换功能的 NUMBER 以使情节更容易理解?我试图转换包含特征名称的字符串(即数据框每一列的名称),但我无法达到我的目标。

谢谢

4

3 回答 3

3

问题在这里:

plt.xticks(range(heart_train.shape[1]), indices)

indices是从您返回的索引数组np.argsort(importances)[::-1],它没有您希望在 X 轴上显示为刻度的特征名称。

你需要这样的东西,假设df是你的 Pandas DataFrame

feature_names = df.columns # e.g. ['A', 'B', 'C', 'D', 'E']
plt.xticks(range(heart_train.shape[1]), feature_names)
于 2016-06-17T10:44:01.030 回答
2

我认为这是旧的,但对于后代,如果您想以feature_name正确的顺序从@bakkal 的解决方案中获取,您可以使用

feature_names = [features_names[i] for i in indices]

于 2017-12-29T13:04:32.367 回答
1

您可以在模型中使用 xgboost 通过使用方法-plot_importance(model) 以简单的方式绘制特征的重要性

from xgboost import plot_importance,XGBClassifier model=XGBClassifier(n_estimators=1000,learning_rate=0.5) x_train,x_test,y_train,y_test=model_selection.train_test_split(features,label,test_size=0.2) model.fit(x_train,y_train,early_stopping_rounds=5,eval_set=[(x_test,y_test)]) plot_importance(model) plt.show()

此代码为您提供如下图:

在 y 轴上标记特征名称的图,根据重要性排序,在 x 轴上标记它们的重要性

于 2018-07-11T10:42:47.013 回答