昨天我已经问了一个类似的问题:R - Randomly split a dataframe in n equal pieces
我得到的答案几乎是我需要的,但仍然存在问题。我还考虑了其他不同的方法来获得结果。
这是我的示例 df-list:
set.seed(0L)
AB_df = data.frame(replicate(2,sample(0:130,1624,rep=TRUE)))
BC_df = data.frame(replicate(2,sample(0:130,1656,rep=TRUE)))
DE_df = data.frame(replicate(2,sample(0:130,1656,rep=TRUE)))
FG_df = data.frame(replicate(2,sample(0:130,1729,rep=TRUE)))
AB_pc = data.frame(replicate(2,sample(0:130,1624,rep=TRUE)))
BC_pc = data.frame(replicate(2,sample(0:130,1656,rep=TRUE)))
DE_pc = data.frame(replicate(2,sample(0:130,1656,rep=TRUE)))
FG_pc = data.frame(replicate(2,sample(0:130,1729,rep=TRUE)))
df_list = list(AB_df, BC_df, DE_df, FG_df, AB_pc, BC_pc, DE_pc, FG_pc)
names(df_list) = c("AB_df", "BC_df", "DE_df", "FG_df", "AB_pc", "BC_pc", "DE_pc", "FG_pc")
我想将列表中的单个 df 随机子集为 n 个相等的部分(或尽可能接近相等)。我已经从 chinsoon12 得到了一个非常有帮助的答案:
new = lapply(df_list, function(df) {
n <- nrow(df)
split(df, cut(sample(n), seq(1, n, by=floor(n/4)), labels=FALSE, include.lowest=TRUE))})
问题是它不适用于任何数量的行,也没有考虑到所有的观察结果。例如,当我使用该方法将我的 df_list 划分为 5 个子集时,我得到 AB_df 的 325、324、324、324、324 的子集,总共不是 1624,所以缺少一些东西。当我将它分成 4 块时,我只得到 3 个子集……知道为什么会这样吗?
我还考虑了在列表中拆分 df 的 2 种不同方法。一种方法可能是通过以随机方式更改行的顺序来随机重新排列观察结果:
for (a in 1:length(df_list)) {
df_list[[a]] = df_list[[a]][sample(nrow(df_list[[a]])),]}
现在我只需要将 dfs 分成 n 块......但这是我不确定如何做到这一点的地方。
我想到的第三种方法是为 n 个子样本创建一个随机数字列表 1:n 并将它们添加到数据帧中,然后根据数字提取 df。
我仍然认为第一种方法是最简单的,我更喜欢这个。知道代码有什么问题吗?