2

我有许多观察结果是对给定用户发生的某个事件的计数。例如

        login_count logout_count
user1            5            2
user2           20           10
user3           34            5

我想将这些变量与其他一些变量一起提供给 PCA,只是想知道我是否应该直接使用计数(并缩放列)或使用百分比(并在之后缩放列),例如

       login_count logout_count
user1         0.71         0.28
user2         0.66         0.33
user3         0.87         0.13

哪一种是表示数据的更好方式?

谢谢

4

1 回答 1

1

取决于您要从数据中提取的信息。

如果相关性login=p*logout,那么我会选择第一个。另一个有点奇怪,因为你应该在 100% 的时间里登录(你怎么会知道它是 user1?)和注销可能是 28%。而且您还具有依赖性1-login_procent_i=logout_procent_i,它将在预处理之前和之后为您提供完美的相关性。

于 2012-11-15T07:33:37.297 回答