例如,我有以下火车。
name values
0 Tony 100
1 Smith 110
2 Sam 120
3 Shane 130
4 Sam 140
5 Ram 160
经过一次热编码后,它变成
values 0 1 2 3 4
0 100 1 0 0 0 0
1 110 0 1 0 0 0
2 120 0 0 1 0 0
3 130 0 0 0 1 0
4 140 0 0 1 0 0
5 160 0 0 0 0 1
现在假设我在生产中有Danny
一个新级别的测试数据name
:
name values
0 Shane 200
1 Danny 210
2 Sam 220
3 Tony 180
4 Danny 150
在对此进行一次热编码后
values 0 1 2 3
0 200 1 0 0 0
1 210 0 1 0 0
2 220 0 0 1 0
3 180 0 0 0 1
4 150 0 1 0 0
基于上述情况,我有几个问题:
- 如何处理生产测试数据中分类变量的级别或值的新条目?
- 如何保持模型的输入特征大小(例如,训练数据为 6,测试数据为 5)?
- 在训练集中也是
Tony
特征 0,但在测试中它是特征 3;它会影响对训练模型的测试输入的预测吗?