0

我正在使用 Python 处理调查数据。有一个基于年龄、性别和地区的加权变量应包含在计算中(以使数据代表人口)。

加权变量是一个简单的十进制数,通常介于 >= 0.9 和 <= 1.2 之间。

我不知道如何将它包含在简单的计算中。大多数变量都有“是/否/不确定”值或其他类别。

例如,如何在此处包含权重变量:

survey['my_variable'].value_counts(normalize=True)
4

1 回答 1

1

我想我已经找到了一个基于此的解决方案:Groupby with weight

所以我的策略是首先按调查周、国家和我感兴趣的分类变量汇总数据框:

survey_c.groupby(['week','country','my_cat_var']).weight.sum().reset_index(name='count')

之后,我可以使用聚合数据进行绘图或其他任何事情。

如果有人有意见或更好的策略,请举手

于 2020-08-19T08:27:34.343 回答