我正在解决预测销售额的问题。它是一个非时间序列问题。我使用了随机森林和 XGBoost 方法。对于本地和全球的解释,我使用的是 SHAP。我能够在全局范围内计算出最重要的变量并获得本地 SHAP 值估计。但是这些特征的局部 SHAP 值的问题在于:
它违反了一些最基本的已知假设。例如,变量 Discount 的贡献应该是正的,因为折扣值越高,销售额越高。因此,SHAP 应该对本地任何地方的该功能都是积极的。但对于许多局部点来说,它是负面的。SHAP 值将所有局部 SHAP 值计算的基线作为预测值的平均值。但是我希望基线是一个值,当所有特征都为零时或至少在某些特征(如折扣)为零时进行预测。这提示我线性回归的截距项。一种明显的解决方案是简单地使用线性回归方法。但与 XGBoost/RandomForest 相比,它给出的预测/拟合非常差。
我正在考虑尝试 LIME,但我不太确定它是否能让我分解销售的预测值并将其归因于不同的自变量。
是否有任何方法可以让我进行这种体积分解?