0

在 Python 中,假设我有一个名为 size 的数据框列,如下所示:

E 
G 
F  
D 
F
E...

字母 D 到 G 代表不同的尺寸,例如,从 Small 到 X-Large。我能做的是用数字表示它们,如下所示:

2
4
3
1
3
2...

但是,由于这不是连续数据,这可能会导致我将来进行的其他分析出现问题。因此,我的另一个想法是将其分成 4 列,其中一个实例的大小为 1,否则为 0。它应该如下所示:

D E F G

0 1 0 0
0 0 0 1
0 0 1 0
1 0 0 0
0 0 1 0 
0 1 0 0

我听说过 Python 中称为 OneHotEncoder 的东西,它对这类场景很有用。我将如何有效地使用它来解决这个问题,或者,我还有什么其他方法可以解决这个问题?

4

0 回答 0