我有一个非常简单的数据框:
X Y
---
A 1
A 2
B 3
C 1
C 3
我的最终结果应该是这样的列表:
$`A`
[1] 1 2
$`B`
[1] 3
$`C`
[1] 1 3
对于此操作,我使用 R 中的 split() 函数:
k <- split(Y, X)
这工作得很好。但是,如果我想将此代码应用于包含 2200 万行的数据帧,其中包括 1000 万组 X 和 387000 个 Y 值,它会变得非常耗时。我尝试使用 RRO 8.0 开放版本来支持 MKL。但是,仍然只使用一个内核。CPU 有 64 GB 的 RAM,所以这应该不是问题。
有什么更聪明的计算方法的想法吗?