问题是基于使用返回列表对象的函数拆分数据帧split()
,理论上我想做的是通过包含超过 2000 个唯一记录的 id 列拆分数据帧,但是这样做似乎会产生内存问题,虽然这可以计算出来,我既不能在 GUI 中访问,也不能在 R 终端/Rstudio 中引用它。或者,我一直在研究 ff 包,但不确定它是否会起作用,目前正在寻找解决问题的新方法。
我尝试过:
1)split()
id
的函数 2)split()
不同的较小长度字符向量的函数
3)
拆分后:我想将多行中的所有交易信息合并为一行,即一行代表一个完整的交易(在每月/每年的时间段内)
因此通过聚合从粒度空间转移到粒度较小的空间。
原始数据(逗号是分隔符)
Bob, cat, dog, house,day 1
Bob,cat, dog,house ,day 2
Bob,dog , chair ,house ,day 3
预期结果:
Bob, cat cat cat , dog dog chair , house,house house
或者(编码方法如下所示):
cat = x
dog = y
chair = a
house = b
Bob , 3x,2y + a, 3b
可重现的代码块
L3 <- LETTERS[1:3]
fac <- sample(L3, 10, replace = TRUE)
ids <- c("Bob","John") ## ideally I would have about 100k unique ids ( 100,000)
d <- data.frame(x = ids, y = 1:10, fac = fac))
d2 <- split(d$x)
d2