1

我正在尝试在名为 DFA_CMO 的表上计算加权平均值(每个视图数的平均查看时间)的聚合。DFA_CMO 有 5 个维度,其中 Site。

这是代码:

ddply(DFA_CMO,.(Site),summarize, wm = weighted.mean(DFA_CMO$AverageViewingTime, DFA_CMO$Views, ,na.rm=TRUE))

但结果令人失望,因为它为每个字段显示相同的值:

              Site       wm
1         Advideum 21.17633
2          bbc.com 21.17633
3       Boursorama 21.17633
4       Canal Plus 21.17633
5     CNN  Network 21.17633
6       EuronewsFR 21.17633
7  invitemedo.com 21.17633
8         Lfddfdse 21.17633
9         Le Monde 21.17633
10     Les Echos 1 21.17633
11     lopinion.fr 21.17633
12          TF1.fr 21.17633
13        ViadeoFR 21.17633
14 WSJ UK - IBM PE 21.17633

似乎这里显示了所有内容的平均值,而每个站点的平均值应该不同。知道如何获得正确的价值观吗?

4

1 回答 1

3

不要DFA_CMO$<var_name>将调用传递给ddply. 只需传递变量名本身。

ddply(DFA_CMO,.(Site),summarize,
      wm = weighted.mean(AverageViewingTime, views, ,na.rm=TRUE))

原因是通过给出数据框名称,您实际上是在将固定向量传递给加权平均函数,即数据框中所有行的值。如果您只传递列名,ddply将在与每个组对应的那些行子集的上下文中评估它们。

于 2013-06-20T16:47:53.997 回答