Piggy 回避我自己之前的问题python pandas: 根据 % 随机分配控制组与治疗组
感谢@maxU,我知道如何将随机控制/治疗分组分配给 2 个组;但是如果我有 3 个或更多组怎么办?
例如:
df.head()
customer_id | Group | many other columns
ABC 1
CDE 3
BHF 2
NID 1
WKL 3
SDI 2
JSK 1
OSM 3
MPA 2
MAD 1
pd.pivot_table(df,index=['Group'],values=["customer_id"],aggfunc=lambda x: len(x.unique()))
Group 1 : 270
Group 2 : 180
Group 3 : 330
当我只有两组时,我有一个很好的答案:
df['Flag'] = df.groupby('Group')['customer_id']\
.transform(lambda x: np.random.choice(['Control','Test'], len(x),
p=[.5,.5] if x.name==1 else [.4,.6]))
但是,如果我想以这种方式拆分它怎么办:
- 第 1 组:50% 控制和 50% 测试
- 第 2 组:40% 控制和 60% 测试
- 第 3 组:20% 控制和 80% 测试
@MaxU 的回答很棒,但不幸的是,拆分并不准确
d = {1:[.5,.5], 2:[.4,.6], 3:[.2,.8]}
df['Flag'] = df.groupby('Group')['customer_id'] \
.transform(lambda x: np.random.choice(['Control','Test'], len(x), p=d[x.name]))
当我测试它时,我没有得到精确的分割。
pd.pivot_table(df,index=['Group'],values=["customer_id"],columns=['Flag'], aggfunc=lambda x: len(x.unique()))
Control Treatment
Group 1: 138 132
Group 2: 78 102
Group 3: 79 251
第 1 组应为 135/135。