1

给定一个高维数据集并对数据应用 PCA 或其他一些降维技术,通常需要居中,有时需要标准化。当给定数据集以分解为训练/测试/验证集时,似乎只应在训练集上进行居中和归一化,并且应保存每个变量的这些值(均值/标准差)。然后,当计算验证/测试错误率时,验证/测试数据集应该集中并归一化,对应于为训练数据计算的值,而不是它们自己的这些参数的内在值。这通常正确吗?

4

0 回答 0