-2

我使用 GroupKFold 调整了 RandomForest(以防止数据泄漏,因为某些行来自同一组)。

我得到了一个最佳拟合模型,但是当我对测试数据进行预测时,它说它需要组特征。

那有意义吗?奇怪的是,组功能也成为最重要的功能之一。

我只是想知道是否有什么我可能做错了。

谢谢

4

2 回答 2

0

在 scikit-learn Github repo 上的搜索没有显示字符串“group feature”或“group_feature”或任何类似内容的单个实例,因此我将继续假设您的数据集中有一个名为“group”的特征预测模型需要作为输入才能产生输出。

请记住,预测模型基本上是一个接受输入(“预测”变量)并返回输出(“预测”变量)的函数。如果一个名为“组”的变量被定义为您的预测模型的输入,那么 scikit-learn 会请求它是有意义的。

于 2020-09-06T11:42:39.707 回答
0

该组是否在训练集上显示为一列?如果是这样,请将其删除并重新训练。看起来您只是在使用它来生成拆分。如果它不是您需要预测的输入数据的一部分,则它不应该在训练集中。

于 2020-09-08T13:28:46.033 回答