让我们准备一些二进制分类数据:
from seaborn import load_dataset
from sklearn.model_selection import train_test_split
from lightgbm import LGBMClassifier
import shap
titanic = load_dataset("titanic")
X = titanic.drop(["survived","alive","adult_male","who",'deck'],1)
y = titanic["survived"]
features = X.columns
cat_features = []
for cat in X.select_dtypes(exclude="number"):
cat_features.append(cat)
# think about meaningful ordering instead
X[cat] = X[cat].astype("category").cat.codes.astype("category")
X_train, X_val, y_train, y_val = train_test_split(X,y,train_size=.8, random_state=42)
clf = LGBMClassifier(max_depth=3, n_estimators=1000, objective="binary")
clf.fit(X_train,y_train, eval_set=(X_val,y_val), early_stopping_rounds=100, verbose=100)
要回答您的问题,要按类提取 shap 值,可以按类标签对它们进行子集化:
explainer = shap.TreeExplainer(clf)
shap_values = explainer.shap_values(X_train)
sv = np.array(shap_values)
y = clf.predict(X_train).astype("bool")
# shap values for survival
sv_survive = sv[:,y,:]
# shap values for dying
sv_die = sv[:,~y,:]
然而,一个更有趣的问题是你可以用这些值做什么。
summary_plot
通常,通过查看(对于整个数据集)可以获得有价值的见解:
shap.summary_plot(shap_values[1], X_train.astype("float"))
解释(全球):
- 性别、pclass 和年龄是决定结果的最有影响力的特征
- 身为男性、较不富裕且年龄较大,生存机会减少
全球最具影响力的前 3 个特征可以提取如下:
idx = np.abs(sv[1,:,:]).mean(0).argsort()
features[idx[:-4:-1]]
# Index(['sex', 'pclass', 'age'], dtype='object')
如果您想按类别进行分析,您可以为幸存者单独执行此操作 ( sv[1,y,:]
):
# top3 features for probability of survival
idx = sv[1,y,:].mean(0).argsort()
features[idx[:-4:-1]]
# Index(['sex', 'pclass', 'age'], dtype='object')
对于那些没有幸存下来的人也是如此(sv[0,~y,:]
):
# top3 features for probability of dieing
idx = sv[0,~y,:].mean(0).argsort()
features[idx[:3]]
# Index(['alone', 'embark_town', 'parch'], dtype='object')
请注意,我们在这里使用平均形状值,并表示我们对幸存者的最大值和未幸存者的最低值感兴趣(最低值,接近 0,也可能意味着根本没有恒定的单向影响)。在 abs 上使用均值也可能有意义,但无论方向如何,解释都将是最有影响力的。
要做出有根据的选择,要么更喜欢手段或绝对手段,因此必须了解以下事实:
- 形状值可以是正的也可以是负的
- shap 值是对称的,并且增加/减少一类的概率会以相同的量减少/增加另一类的概率(由于 p₁ = 1 - p₀)
证明:
#shap values
sv = np.array(shap_values)
#base values
ev = np.array(explainer.expected_value)
sv_died, sv_survived = sv[:,0,:] # + constant
print(sv_died, sv_survived, sep="\n")
# [-0.73585563 1.24520748 0.70440429 -0.15443337 -0.01855845 -0.08430467 0.02916375 -0.04846619 0. -0.01035171]
# [ 0.73585563 -1.24520748 -0.70440429 0.15443337 0.01855845 0.08430467 -0.02916375 0.04846619 0. 0.01035171]
很可能你会发现性别和年龄对幸存者和非幸存者都起了最重要的作用;因此,与其分析每个类别最有影响力的特征,不如看看是什么让两个同性别和同龄的乘客幸存下来,而另一个没有(提示:在数据集中找到这样的案例,将其中一个作为背景,以及分析另一个的形状值,或者尝试分析一个类与另一个类作为背景)。
您可以dependence_plot
(在全局或每个类的基础上)进行进一步分析:
shap.dependence_plot("sex", shap_values[1], X_train)
解释(全球):
- 男性的生存概率较低(形状值较低)
- pclass(富裕)是下一个最有影响力的因素:较高的 pclass(较不富裕)降低女性的生存机会,反之亦然