0

我有一组数据,超过 1000 行和 20 个属性(显示在列中)。我想要使​​用均值居中,其中包括从每个值中取出均值以给出均值 0。我是在逐个属性的基础上删除均值,还是从每个属性中删除所有属性的均值?

例如,如果属性 A 的平均值为 500,而属性 B 的平均值为 1,000。对于 AI 中的所有值都可以删除 500,这使 A 属性的平均值为 0。然后我可以对属性 B 执行相同的操作。

或者

我可以从这两个属性的所有值中减去 750。

哪个在统计上更正确?

我的问题是由于这个:如果我从不同的属性中减去不同的值,那么这些属性就不再具有可比性,因为从每个属性中获取了不同的数量。如果我从所有值中减去相同的值,那么某些列可能只有负数(因此否定了均值居中的影响)。

谢谢,

4

1 回答 1

3

通常,您会将每个属性单独居中。
如果将每个属性分别居中,则假设对于个人而言,重要的是每个度量与该属性的平均值有何不同,并且您将失去该个人的属性的绝对比较。
例如,如果您有一个人的身高、体重,将它们分别居中,那么您可以询问“对于一个高于平均水平的人,体重是否也大于平均体重”。平均身高和体重是没有意义的。
一种思考方式是,您正在创建一个普通的个体,您现在可以将其用作所有观察的基准。
现在,如果 2 个度量的绝对值具有可比性,例如产品价格和成本,您将无法再比较它们,因为它们会发生偏移。如果您关心的是使用绝对比较进行单个观察的度量,则您需要创建一个辅助度量,例如利润百分比。在这种情况下,居中的值将允许您询问“价格较高的产品是否比平均水平更有利可图”。

于 2012-05-12T21:34:41.763 回答