我们知道,在数据挖掘中,我们经常需要 one-hot encoding 来对分类特征进行编码,因此,一个分类特征将被编码为几个“0/1”特征。
有一个特殊情况让我感到困惑:现在我的数据集中有一个分类特征和一个数字特征。我将分类特征编码为 300 个新的“0/1”特征,然后使用 MinMaxScaler 对数字特征进行归一化,所以我所有的特征值在0到1的范围内。但可疑的现象是分类特征与数值特征的比例似乎从1:1变为300:1。
我的编码方法正确吗?这让我对one-hot编码产生了怀疑,我认为这可能会导致特征不平衡的问题。
谁能告诉我真相?任何词将不胜感激!谢谢!!!