我正在与堆叠学习者一起工作。根据H2OStackedEnsembleEstimator的文档, h2o 的 python 实现允许您轻松构建集成模型。然而,这仅限于构建具有相同基础训练数据的基础分类器。我有基于时间的功能,其最短日期因数据源而异。每个数据样本都是一个时间点。为了尽可能多地利用数据,我将特征分成两组(取决于相关性和最短日期)并训练两个单独的模型。我想组合这些模型,但 H2OStackedEnsembleEstimator 要求功能相同。
根据这篇关于 R 的堆叠集成实现的帖子,可以选择只执行元学习步骤,这应该只需要每个基本模型的 k 折交叉验证预测和真实目标值。
万一它越过任何人的脑海......对于我的特定问题,我意识到我将遇到与最小日期不匹配的元学习步骤的问题,并且我有想法来规避这个问题。