我需要的:
我有一个巨大的数据框,其中包含以下列(还有更多,但这些并不重要)。这是一个例子:
user_id video_id group_id x y
1 1 0 0 39 108
2 1 0 0 39 108
3 1 10 0 135 180
4 2 0 0 20 123
当然,用户、视频和组 ID 是因素。例如,有 20 个视频,但每个视频对每个用户和组都有几个“观察”。
我想将此数据框转换为以下格式,其中有多少x.N
个y.N
用户(N
)。
video_id x.1 y.1 x.2 y.2 …
0 39 108 20 123
因此,对于 video 0
,来自用户 1 的 x 和 y 值分别位于x.1
和列y.1
中。对于用户 2,它们的值位于 、 等列x.2
中y.2
。
我试过的:
我为自己制作了一个数据框列表,这些数据框仅由每个数据框的所有x, y
观察结果组成video_id
:
summaryList = dlply(allData, .(user_id), function(x) unique(x[c("video_id","x","y")]) )
这就是它的样子:
List of 15
$ 1 :'data.frame': 20 obs. of 3 variables:
..$ video_id: Factor w/ 20 levels "0","1","2","3",..: 1 11 8 5 12 9 20 13 7 10 ...
..$ x : int [1:20] 39 135 86 122 28 167 203 433 549 490 ...
..$ y : int [1:20] 108 180 164 103 187 128 185 355 360 368 ...
$ 2 :'data.frame': 20 obs. of 3 variables:
..$ video_id: Factor w/ 20 levels "0","1","2","3",..: 2 14 15 4 20 6 19 3 13 18 ...
..$ x : int [1:20] 128 688 435 218 528 362 299 134 83 417 ...
..$ y : int [1:20] 165 117 135 179 96 328 332 563 623 476 ...
我被困在哪里:
剩下要做的是:
summaryList
基于 . 将每个数据帧彼此合并video_id
。我找不到访问列表中实际数据框的好方法,这些数据框是summaryList[1]$`1`
,summaryList[2]$`2`
等等。@James 找到了部分解决方案:
Reduce(function(x,y) merge(x,y,by="video_id"),summaryList)
确保在用户 ID 之后重命名列名,而不是保持原样。现在 my
summaryList
不包含有关用户 ID 的任何信息,并且输出Reduce
具有重复的列名x.x y.x x.y y.y x.x y.x
,诸如此类。
我该怎么做呢?或者有没有比我目前正在做的更简单的方法来获得结果?