我在使用 SHAP 值来解释基于树的模型时遇到问题。
( https://github.com/slundberg/shapsd )
首先,我输入了大约 30 个特征,其中 2 个特征之间具有高度正相关。
之后,我训练 XGBoost 模型(python)并查看 2 个特征的 SHAP 值,SHAP 值具有负相关。
你们能向我解释一下,为什么 2 个特征之间的输出 SHAP 值的相关性与输入相关性不同?我可以相信SHAP的输出吗?
==========================
输入之间
的相关性:0.91788 SHAP 值之间的相关性:-0.661088
2个特征是
1)省内人口和
2)省内家庭数。
模型性能
训练 AUC:0.73
测试 AUC:0.71