python - 用来自另一个 DataFrame 熊猫的随机值填充 nan 值

Question

我有一个包含数百万行和很多 NaN 值的 DataFrame。一些例子：

index     Company        Area
    0     Google         Technology
    1     Coca Cola      Drinks
    2     NaN            Drinks
    3     Apple          Technology
    4     NaN            Technology
    5     Gatorade       Drinks
    6     Dell           Technology
    7     Apple          Technology
    8     Coca Cola      Drinks
    9     NaN            Drinks
    10    Google         Technology

我的想法是用其 Area 的 2 个最常见值之一填充 Companies NaN 值。

例如：如果技术领域最常见的公司是 Apple 和 Google，我想用其中一个值（随机）填充“df['Area'] == 'Technology'”NaN 值

我已经用最常见的值创建了一个 Group By DataFrame，它是这样的：

Area          Company
Technology    Google
Technology    Apple
Drinks        Coca Cola
Drinks        Pepsi

结果应该是这样的：

index     Company        Area
    0     Google         Technology
    1     Coca Cola      Drinks
    2     Pepsi          Drinks
    3     Apple          Technology
    4     Google         Technology
    5     Gatorade       Drinks
    6     Dell           Technology
    7     Apple          Technology
    8     Coca Cola      Drinks
    9     Pepsi          Drinks
    10    Google         Technology

我希望你能帮助我。

谢谢！！！

score 0 · Accepted Answer

我通过使用提出了这个解决方案random.choice

import random

s=df1.groupby('Area').Company.apply(list).reindex(df.Area).apply(lambda x :random.choice(x) )
s.index=df.index

df.Company=df.Company.fillna(s)

df
Out[200]: 
    index   Company        Area
0       0    Google  Technology
1       1  CocaCola      Drinks
2       2  CocaCola      Drinks
3       3     Apple  Technology
4       4    Google  Technology
5       5  Gatorade      Drinks
6       6      Dell  Technology
7       7     Apple  Technology
8       8  CocaCola      Drinks
9       9     Pepsi      Drinks
10     10    Google  Technology

python - 用来自另一个 DataFrame 熊猫的随机值填充 nan 值

1 回答 1

Related

Reference