我有一个数据框,其行代表人。对于给定的族,第一行在1column 中具有值A,并且所有后续行都包含同一族的成员,直到在 columnA中的另一行具有值为止1。然后,一个新的家庭开始了。
我想为我的数据集中的所有家庭分配 ID。换句话说,我想采取:
A
1
2
3
1
3
3
1
4
并将其变成:
A family_id
1 1
2 1
3 1
1 2
3 2
3 2
1 3
4 3
我正在玩一个 300 万行的数据框,所以for我想出的一个简单的循环解决方案没有达到必要的效率。此外,family_id不需要是顺序的。
我将采用 dplyr 解决方案。