我有一个数据集,其中包含一些丢失的数据,如下所示:
id category value
1 A NaN
2 B NaN
3 A 10.5
4 C NaN
5 A 2.0
6 B 1.0
我需要填写空值才能使用模型中的数据。每当一个类别第一次出现时,它都是 NULL。我想要做的方式是对于像类别这样的情况A
,并且B
具有多个值,用该类别的平均值替换空值。对于仅出现一次的类别C
,只需填写其余数据的平均值。
我知道我可以简单地执行此操作C
来获取所有行的平均值,但我坚持尝试对 A 和 B 进行分类均值并替换空值。
df['value'] = df['value'].fillna(df['value'].mean())
我需要最终的df是这样的
id category value
1 A 6.25
2 B 1.0
3 A 10.5
4 C 4.15
5 A 2.0
6 B 1.0