我有一个包含 8 个混合特征(6 个数字和 2 个分类)的数据集。由于数值具有不同的范围,我必须将数据集作为一个整体进行标准化,以便能够执行更远的操作,例如机器学习算法、降维(特征提取)。
我的原始数据集:
time v1 v2 v3 ... v7 v8
00:00:01 15435 0.7 13 ... High True
00:00:06 24356 3.6 23 ... High True
00:00:11 25567 8.3 82 ... LOW False
00:00:16 12345 5.4 110 ... LOW True
00:00:21 43246 1.7 93 ... High False
................................................
23:23:59 23456 3.8 45 ... LOW False
其中 v1 到 v6 是数值变量,它们的值在不同的范围内,如上所示。此外,v7 和 v8 是只有两个输出的分类变量(v7 {High, Low} 和 v8 {True, False})。
我对分类变量(v7 和 v8)进行了标签编码,其中 High 和 True 编码为 1,LOW 和 False 编码为 0。
下图说明了标签编码后数据集的样子:
time v1 v2 v3 ... v7 v8
00:00:01 15435 0.7 13 ... 1 1
00:00:06 24356 3.6 23 ... 1 1
00:00:11 25567 8.3 82 ... 0 0
00:00:16 12345 5.4 110 ... 0 1
00:00:21 43246 1.7 93 ... 1 0
................................................
23:23:59 23456 3.8 45 ... 0 0
我的问题如下:从 v1 到 v6 的数值特征很容易标准化。但是,我不确定是否标准化分类观察,如果是,那么最好的方法是什么?