0

在使用 H2O DAI 构建模型时,我注意到在最终模型中会有一些相关变量。例如,变量“过去 9 个月的最大储蓄账户数量”和“过去 3 个月的最大储蓄账户数量”都出现在最终模型中,但它们具有很高的相关性。了解我们可以在为 H2O DAI 提供数据之前检查这一点的方法,但我想知道是否有一些设置或好方法可以让 H2O DAI 在选择特征来构建模型时自动检查变量多重共线性?

我在这里先向您的帮助表示感谢。

4

1 回答 1

0

如果您想查看相关特征并在构建模型之前手动删除它们。转到 Autoviz 部分并查看相关散点图,然后从实验或数据集中删除这些列。

移除共线特征对于任何建模都是困难的,因为您不知道哪个特征会比另一个更好。如果同时拥有“过去 9 个月的最大储蓄账户数量”和“过去 3 个月的最大储蓄账户数量”使您的模型表现得比只有一个更好呢?这是领域知识变得重要的地方,专家应该做出决定。

消除某些共线性的一种方法是限制模型具有的特征数量。您可以使用max_orig_cols_selected来限制数量。您可以在专家设置或config.toml 中进行设置(有关更多信息,请参阅)。但正如我之前所说,很难确定是否应该将某些共线特征保留在其他特征之上。

另一种选择是使用本质上进行特征选择的算法/模型,例如 L1 (LASSO) 回归。

于 2021-02-22T07:27:56.643 回答