python-3.x - 根据另一列替换缺失值

Question

我正在尝试根据另一列“国家/地区”的过滤来替换数据框中的缺失值

>>> data.head()
   Country  Advanced skiers, freeriders   Snow parks 
0       Greece                           NaN          NaN
1  Switzerland                           5.0          5.0
2          USA                           NaN          NaN
3       Norway                           NaN          NaN
4       Norway                           3.0          4.0

显然这只是一小部分数据，但我希望用NaN每个特征的平均值替换所有值。

我尝试按国家/地区对数据进行分组，然后计算每列的平均值。当我打印出结果数组时，它会出现预期值。但是，当我将其放入.fillna()方法中时，数据似乎没有变化

我已经从这个类似的帖子中尝试过@DSM 的解决方案，但我不确定如何将它应用到多个列。

listOfRatings = ['Advanced skiers, freeriders', 'Snow parks']

print (data.groupby('Country')[listOfRatings].mean().fillna(0))
-> displays the expected results

data[listOfRatings] = data[listOfRatings].fillna(data.groupby('Country')[listOfRatings].mean().fillna(0))
-> appears to do nothing to the dataframe

假设这是完整的数据集，这就是我期望的结果。

   Country  Advanced skiers, freeriders   Snow parks 
0       Greece                           0.0          0.0
1  Switzerland                           5.0          5.0
2          USA                           0.0          0.0
3       Norway                           3.0          4.0
4       Norway                           3.0          4.0

谁能解释我做错了什么，以及如何修复代码？

score 2 · Accepted Answer

您可以使用与原始值相同大小transform的返回新DataFrame值填充聚合值：

print (data.groupby('Country')[listOfRatings].transform('mean').fillna(0))
   Advanced skiers, freeriders  Snow parks
0                          0.0         0.0
1                          5.0         5.0
2                          0.0         0.0
3                          3.0         4.0
4                          3.0         4.0

#dynamic generate all columns names without Country
listOfRatings = data.columns.difference(['Country'])
df1 = data.groupby('Country')[listOfRatings].transform('mean').fillna(0)
data[listOfRatings] = data[listOfRatings].fillna(df1)
print (data)

print (data)

       Country  Advanced skiers, freeriders  Snow parks
0       Greece                          0.0         0.0
1  Switzerland                          5.0         5.0
2          USA                          0.0         0.0
3       Norway                          3.0         4.0
4       Norway                          3.0         4.0

python-3.x - 根据另一列替换缺失值

1 回答 1

Related

Reference