python - 变量选择涉及数字、高基数、低基数特征的混合

翻译自：https://stackoverflow.com/questions/60183963 2020-02-12T08:23:48.117

45 次

考虑一个虚拟数据框：

A B C  D …. Z
1 2 as we   2
2 4 qq rr   5 
4 5 tz rc   9

该数据框有25个自变量和1个目标变量，自变量是高基数特征、数值特征和低基数特征的混合，目标变量是数值。现在我首先要选择或过滤有助于预测目标变量的变量。对实现这一目标的任何建议或技巧表示赞赏。希望我的问题很清楚，如果问题的形式不清楚，我欢迎提出更正的建议。

到目前为止我尝试了什么？我对目标变量的分类特征应用了目标均值编码（平滑均值）。然后我应用随机森林来了解变量的重要性。奇怪的是，随机森林一直只选择一个特征，我预计至少有 3-4 个有意义的变量。我尝试了神经网络，但结果没有什么不同，这是什么原因？如果算法只使用一个变量，这意味着什么？并且测试预测不是很准确。RMSE 约为 2.4，其中目标特征的值通常在 20-40 之间。感谢您耐心阅读本文。PS：我正在使用 SKlearn 和 python。

python - 变量选择涉及数字、高基数、低基数特征的混合

0 回答 0

Related

Reference