我正在尝试预处理生物数据以训练神经网络,尽管对各种标准化方法进行了广泛的搜索和重复介绍,但对于何时应该使用哪种方法我一无所知。特别是我有一些输入变量是正偏态的,并且一直在尝试确定是否存在最合适的归一化方法。
我还担心这些输入的性质是否会影响网络的性能,因此我尝试了数据转换(特别是对数转换)。然而,一些输入有许多零,但也可能是小的十进制值,并且似乎受到 log(x + 1) (或从 1 到 0.0000001 的任何数字)的高度影响,结果分布未能接近正常(要么仍然偏斜或变成双峰,在最小值处有一个尖峰)。
这与神经网络有关吗?IE。我应该使用特定的特征转换/归一化方法来解释倾斜的数据,还是应该忽略它并选择一种归一化方法并继续推进?
任何关于此事的建议将不胜感激!
谢谢!