我正在尝试将(非常)长的表格重塑为宽(非常稀疏)的表格。
尺寸:
dim(data)
[1] 16146436 3
如果我尝试标准dcast
操作,由于内存不足而失败:
datac <- dcast(formula=gene ~ sample, value.var="Coverage", data=data)
Error: cannot allocate vector of size 23399.6 Gb
dcast
关于为大型非常稀疏的数据集优化运行或替代方案的任何建议?