我有一组数据,超过 1000 行和 20 个属性(显示在列中)。我想要使用均值居中,其中包括从每个值中取出均值以给出均值 0。我是在逐个属性的基础上删除均值,还是从每个属性中删除所有属性的均值?
例如,如果属性 A 的平均值为 500,而属性 B 的平均值为 1,000。对于 AI 中的所有值都可以删除 500,这使 A 属性的平均值为 0。然后我可以对属性 B 执行相同的操作。
或者
我可以从这两个属性的所有值中减去 750。
哪个在统计上更正确?
我的问题是由于这个:如果我从不同的属性中减去不同的值,那么这些属性就不再具有可比性,因为从每个属性中获取了不同的数量。如果我从所有值中减去相同的值,那么某些列可能只有负数(因此否定了均值居中的影响)。
谢谢,