2

考虑一个虚拟数据框:

A B C  D …. Z
1 2 as we   2
2 4 qq rr   5 
4 5 tz rc   9

该数据框有25个自变量和1个目标变量,自变量是高基数特征、数值特征和低基数特征的混合,目标变量是数值。现在我首先要选择或过滤有助于预测目标变量的变量。对实现这一目标的任何建议或技巧表示赞赏。希望我的问题很清楚,如果问题的形式不清楚,我欢迎提出更正的建议。

到目前为止我尝试了什么?我对目标变量的分类特征应用了目标均值编码(平滑均值)。然后我应用随机森林来了解变量的重要性。奇怪的是,随机森林一直只选择一个特征,我预计至少有 3-4 个有意义的变量。我尝试了神经网络,但结果没有什么不同,这是什么原因?如果算法只使用一个变量,这意味着什么?并且测试预测不是很准确。RMSE 约为 2.4,其中目标特征的值通常在 20-40 之间。感谢您耐心阅读本文。PS:我正在使用 SKlearn 和 python。

4

0 回答 0