我正在使用 Python 处理调查数据。有一个基于年龄、性别和地区的加权变量应包含在计算中(以使数据代表人口)。
加权变量是一个简单的十进制数,通常介于 >= 0.9 和 <= 1.2 之间。
我不知道如何将它包含在简单的计算中。大多数变量都有“是/否/不确定”值或其他类别。
例如,如何在此处包含权重变量:
survey['my_variable'].value_counts(normalize=True)
我想我已经找到了一个基于此的解决方案:Groupby with weight
所以我的策略是首先按调查周、国家和我感兴趣的分类变量汇总数据框:
survey_c.groupby(['week','country','my_cat_var']).weight.sum().reset_index(name='count')
之后,我可以使用聚合数据进行绘图或其他任何事情。
如果有人有意见或更好的策略,请举手