5

我需要的:

我有一个巨大的数据框,其中包含以下列(还有更多,但这些并不重要)。这是一个例子:

    user_id video_id group_id    x   y
1         1        0        0   39 108
2         1        0        0   39 108
3         1       10        0  135 180
4         2        0        0   20 123

当然,用户、视频和组 ID 是因素。例如,有 20 个视频,但每个视频对每个用户和组都有几个“观察”。

我想将此数据框转换为以下格式,其中有多少x.Ny.N用户(N)。

video_id  x.1   y.1  x.2  y.2  …
       0   39   108   20  123

因此,对于 video 0,来自用户 1 的 x 和 y 值分别位于x.1和列y.1中。对于用户 2,它们的值位于 、 等列x.2y.2

我试过的:

我为自己制作了一个数据框列表,这些数据框仅由每个数据框的所有x, y观察结果组成video_id

summaryList = dlply(allData, .(user_id), function(x) unique(x[c("video_id","x","y")]) )

这就是它的样子:

List of 15
 $ 1 :'data.frame': 20 obs. of  3 variables:
  ..$ video_id: Factor w/ 20 levels "0","1","2","3",..: 1 11 8 5 12 9 20 13 7 10 ...
  ..$ x       : int [1:20] 39 135 86 122 28 167 203 433 549 490 ...
  ..$ y       : int [1:20] 108 180 164 103 187 128 185 355 360 368 ...
 $ 2 :'data.frame': 20 obs. of  3 variables:
  ..$ video_id: Factor w/ 20 levels "0","1","2","3",..: 2 14 15 4 20 6 19 3 13 18 ...
  ..$ x       : int [1:20] 128 688 435 218 528 362 299 134 83 417 ...
  ..$ y       : int [1:20] 165 117 135 179 96 328 332 563 623 476 ...

我被困在哪里:

剩下要做的是:

  • summaryList基于 . 将每个数据帧彼此合并video_id。我找不到访问列表中实际数据框的好方法,这些数据框是summaryList[1]$`1`,summaryList[2]$`2`等等。

    @James 找到了部分解决方案:

    Reduce(function(x,y) merge(x,y,by="video_id"),summaryList)
    
  • 确保在用户 ID 之后重命名列名,而不是保持原样。现在 mysummaryList不包含有关用户 ID 的任何信息,并且输出Reduce具有重复的列名x.x y.x x.y y.y x.x y.x,诸如此类。

我该怎么做呢?或者有没有比我目前正在做的更简单的方法来获得结果?

4

2 回答 2

4

我还是有些迷茫。但是,我猜你只是想要meltand dcast

library(reshape2)
d <- melt(allData,id.vars=c("user_id","video_id"), measure.vars=c("x","y"))
dcast(d,video_id~user_id+variable,value.var="value",fun.aggregate=mean)

导致:

 video_id  1_x 1_y  2_x 2_y  3_x 3_y  4_x 4_y  5_x 5_y  6_x 6_y  7_x 7_y  8_x 8_y  9_x 9_y 10_x 10_y 11_x 11_y 12_x 12_y 14_x 14_y 15_x 15_y 16_x 16_y
1         0   39 108  899 132   61 357  149 298 1105 415  148 208  442 200  210 134   58 244  910  403  152   52 1092  617 1012  114 1105  424  548  394
2         1 1125  70  128 165 1151 390  171 587  623 623   80 643  866 310  994 114  854 129  781  306  672   -1 1096  354  525  524  150 
于 2012-12-19T13:57:19.540 回答
3

Reduce诀窍:

reducedData <- Reduce(function(x,y) merge(x,y,by="video_id"),summaryList)

…但你需要在names之后修复:

names(reducedData)[-1] <- do.call(function(...) paste(...,sep="."),expand.grid(letters[24:25],names(summaryList)))

结果是:

   video_id  x.1 y.1  x.2 y.2  x.3 y.3  x.4 y.4  x.5 y.5  x.6 y.6  x.7 y.7  x.8
1         0   39 108  899 132   61 357  149 298 1105 415  148 208  442 200  210
2         1 1125  70  128 165 1151 390  171 587  623 623   80 643  866 310  994
于 2012-12-19T13:59:46.003 回答