我正在寻找一种将数据框拆分为大小相等的组(每组中的行数基本相同)的方法,这些组的平均值几乎相等。
User Data
1 5.0
2 4.5
3 3.5
4 6.0
5 7.0
6 6.5
7 5.5
8 6.2
9 5.7
10 5.9
这与此请求非常相似, 但是这只会将数据分成 2 组。
我的实际数据集包含 75-150 行,我需要将其拆分为 5-10 个均值相等且大小相当的组。
过去几天我研究了 Google 和 Stack Exchange,但运气不佳。任何指导都会很棒。
提前致谢!
更多细节:
也许我需要提供更多细节,下面我已经包含了一个真实的数据集。我们是一家运输公司,该数据集提供了 Driver ID、Miles、Gallons。我一直在做的是将数据读入 R,并添加 MPG 列,如下所示:
data <- read.csv('filename')
data$MPG <- data$Miles / data$Gallons
然后我尝试了下面提供的两个答案。Arun 的想法给了我几乎相等的组大小(每组 9 个成员,10 个组),但是平均值的变化很大,从 6.615 到 7.093,这对我来说太大了,无法开始。Thomas 的想法变得更紧凑一些,但小组规模都不同,只有 6 到 13 名成员。
我们要做的是提高车队的 MPG,我们将通过基于团队的比赛来实现这一点,所以我需要从相对相同的组 MPG 开始将所有团队随机放在一起。
也许这有助于并且可以引导我们朝着正确的方向前进?我尝试只用我的编程语言来做这件事,但它每次都会锁定计算机,所以我认为 R 可能能够更好地处理数据。
再次感谢!