我使用 GroupKFold 调整了 RandomForest(以防止数据泄漏,因为某些行来自同一组)。
我得到了一个最佳拟合模型,但是当我对测试数据进行预测时,它说它需要组特征。
那有意义吗?奇怪的是,组功能也成为最重要的功能之一。
我只是想知道是否有什么我可能做错了。
谢谢
我使用 GroupKFold 调整了 RandomForest(以防止数据泄漏,因为某些行来自同一组)。
我得到了一个最佳拟合模型,但是当我对测试数据进行预测时,它说它需要组特征。
那有意义吗?奇怪的是,组功能也成为最重要的功能之一。
我只是想知道是否有什么我可能做错了。
谢谢
在 scikit-learn Github repo 上的搜索没有显示字符串“group feature”或“group_feature”或任何类似内容的单个实例,因此我将继续假设您的数据集中有一个名为“group”的特征预测模型需要作为输入才能产生输出。
请记住,预测模型基本上是一个接受输入(“预测”变量)并返回输出(“预测”变量)的函数。如果一个名为“组”的变量被定义为您的预测模型的输入,那么 scikit-learn 会请求它是有意义的。
该组是否在训练集上显示为一列?如果是这样,请将其删除并重新训练。看起来您只是在使用它来生成拆分。如果它不是您需要预测的输入数据的一部分,则它不应该在训练集中。