我有一个包含大约 15 列和超过 300 万行的大型数据集。
因为数据集太大了,我想用multidplyr
它。
由于数据的原因,不可能将我的数据框分成 12 个部分。假设有列col1
,col2
每列都有几个不同的值,但它们重复(在每一列中分别)。
如何制作 12 个(或n
)类似大小的组,每个组都包含在 和 中具有相同值的col1
行col2
?
示例:假设 incol1
foo
和 in 中的一个可能值col2
是bar
。然后将它们分组,具有此值的所有行都将在一个组中。
所以这个问题是有道理的,总是有超过 12 种col1
和的独特组合col2
。
如果这是 python,我会尝试用 for 和 while 循环做一些事情,但既然是这样R
,可能还有另一种方法。