对于一篇研究论文,我将使用 lasso 模型来执行分类和特征选择。我正准备使用 one-hot 编码来处理我的分类数据,并且需要找出哪些特征映射到原始分类值,以确定最终为最终模型选择了哪些特征。我已经在谷歌上搜索了一段时间,但没有找到答案。
scikit 的 one-hot encoding 是如何赋值的?例如,假设我对某个变量的分类值为 {1, 2, 3, 4}。one-hot encoding 是否按时间顺序将它们组织成虚拟对象(即丢弃 1,使值 2 的第一个虚拟对象,值 3 的第二个虚拟对象,值 4 的第三个虚拟对象?还是根据它找到的顺序分配向下扫描行时使用不同的分类值(例如,第一个观察值的值为 3,第二个观察值的值为 2,因此删除了 3,第一个虚拟变量变为值 2)?
谢谢!