我正在做一个二元分类问题,我正在努力消除异常值并提高准确性。
评分是我的功能之一,如下所示:
0 0.027465
1 0.027465
2 0.027465
3 0.027465
4 0.027465
...
26043 0.027465
26044 0.027465
26045 0.102234
26046 0.027465
26047 0.027465
数据的平均值:
train.ratings.mean()
0.03871552285960927
数据的标准:
train.ratings.std()
0.07585168664836195
我尝试了对数转换,但准确性没有提高:
train['ratings']=np.log(train.ratings+1)
我的目标是对数据进行真假分类:
train.netgain
0 False
1 False
2 False
3 False
4 True
...
26043 True
26044 False
26045 True
26046 False
26047 Fals