python - 具有 NaN（缺失）值的 pandas GroupBy 列

Question

我有一个 DataFrame，在我希望分组的列中有许多缺失值：

import pandas as pd
import numpy as np
df = pd.DataFrame({'a': ['1', '2', '3'], 'b': ['4', np.NaN, '6']})

In [4]: df.groupby('b').groups
Out[4]: {'4': [0], '6': [2]}

看到 Pandas 已经删除了具有 NaN 目标值的行。（我想包括这些行！）

因为我需要很多这样的操作（很多列有缺失值），并且使用比中位数更复杂的函数（通常是随机森林），所以我想避免编写过于复杂的代码。

有什么建议么？我应该为此编写一个函数还是有一个简单的解决方案？

score 221 · Accepted Answer

熊猫 >= 1.1

从 pandas 1.1 开始，您可以更好地控制这种行为，现在允许在 grouper中使用NA 值dropna=False：

pd.__version__
# '1.1.0.dev0+2004.g8d10bfb6f'

# Example from the docs
df

   a    b  c
0  1  2.0  3
1  1  NaN  4
2  2  1.0  3
3  1  2.0  2

# without NA (the default)
df.groupby('b').sum()

     a  c
b        
1.0  2  3
2.0  2  5

# with NA
df.groupby('b', dropna=False).sum()

     a  c
b        
1.0  2  3
2.0  2  5
NaN  1  4

score 169 · Accepted Answer

这在文档的缺失数据部分中提到：

GroupBy 中的 NA 组被自动排除。这种行为与 R 一致

一种解决方法是在执行 groupby 之前使用占位符（例如 -1）：

In [11]: df.fillna(-1)
Out[11]: 
   a   b
0  1   4
1  2  -1
2  3   6

In [12]: df.fillna(-1).groupby('b').sum()
Out[12]: 
    a
b    
-1  2
4   1
6   3

也就是说，这感觉非常糟糕......也许应该有一个选项将 NaN 包含在 groupby 中（参见这个 github 问题- 它使用相同的占位符 hack）。

但是，如另一个答案中所述，“从 pandas 1.1 开始，您可以更好地控制这种行为，现在使用 dropna=False 在 grouper 中允许使用 NA 值”

score 48 · Accepted Answer

古老的话题，如果有人仍然对此感到困惑——另一种解决方法是在分组之前通过 .astype(str) 转换为字符串。这将保存NaN。

df = pd.DataFrame({'a': ['1', '2', '3'], 'b': ['4', np.NaN, '6']})
df['b'] = df['b'].astype(str)
df.groupby(['b']).sum()

score 11 · Accepted Answer

我无法向 M. Kiewisch 添加评论，因为我没有足够的声望点（只有 41，但需要超过 50 点才能发表评论）。

无论如何，只想指出 M. Kiewisch 解决方案不能按原样工作，可能需要更多调整。考虑例如

>>> df = pd.DataFrame({'a': [1, 2, 3, 5], 'b': [4, np.NaN, 6, 4]})
>>> df
   a    b
0  1  4.0
1  2  NaN
2  3  6.0
3  5  4.0
>>> df.groupby(['b']).sum()
     a
b
4.0  6
6.0  3
>>> df.astype(str).groupby(['b']).sum()
      a
b
4.0  15
6.0   3
nan   2

这表明对于组 b=4.0，对应的值是 15 而不是 6。这里只是将 1 和 5 连接为字符串，而不是将其添加为数字。

score 7 · Accepted Answer

迄今为止提供的所有答案都会导致潜在的危险行为，因为您很可能选择了一个实际上是数据集一部分的虚拟值。当您创建具有许多属性的组时，这种情况越来越可能发生。简而言之，这种方法并不总是能很好地概括。

一个不那么棘手的解决方案是使用 pd.drop_duplicates() 创建一个唯一的值组合索引，每个索引都有自己的 ID，然后在该 ID 上进行分组。它更冗长，但确实完成了工作：

def safe_groupby(df, group_cols, agg_dict):
    # set name of group col to unique value
    group_id = 'group_id'
    while group_id in df.columns:
        group_id += 'x'
    # get final order of columns
    agg_col_order = (group_cols + list(agg_dict.keys()))
    # create unique index of grouped values
    group_idx = df[group_cols].drop_duplicates()
    group_idx[group_id] = np.arange(group_idx.shape[0])
    # merge unique index on dataframe
    df = df.merge(group_idx, on=group_cols)
    # group dataframe on group id and aggregate values
    df_agg = df.groupby(group_id, as_index=True)\
               .agg(agg_dict)
    # merge grouped value index to results of aggregation
    df_agg = group_idx.set_index(group_id).join(df_agg)
    # rename index
    df_agg.index.name = None
    # return reordered columns
    return df_agg[agg_col_order]

请注意，您现在可以简单地执行以下操作：

data_block = [np.tile([None, 'A'], 3),
              np.repeat(['B', 'C'], 3),
              [1] * (2 * 3)]

col_names = ['col_a', 'col_b', 'value']

test_df = pd.DataFrame(data_block, index=col_names).T

grouped_df = safe_groupby(test_df, ['col_a', 'col_b'],
                          OrderedDict([('value', 'sum')]))

这将返回成功的结果，而不必担心会覆盖被误认为虚拟值的真实数据。

score 6 · Accepted Answer

安迪·海登（Andy Hayden）的解决方案的一个小点——它不起作用（不再起作用了？）因为np.nan == np.nanyield False，所以该replace函数实际上并没有做任何事情。

对我有用的是：

df['b'] = df['b'].apply(lambda x: x if not np.isnan(x) else -1)

（至少这是 Pandas 0.19.2 的行为。很抱歉将其添加为不同的答案，我没有足够的声誉发表评论。）

score 4 · Accepted Answer

我已经回答了这个问题，但由于某种原因，答案被转换为评论。然而，这是最有效的解决方案：

无法在组中包含（和传播）NaN 非常令人恼火。引用 R 并不令人信服，因为这种行为与许多其他事情不一致。无论如何，虚拟黑客也很糟糕。但是，如果有 NaN，组的大小（包括 NaN）和计数（忽略 NaN）会有所不同。

dfgrouped = df.groupby(['b']).a.agg(['sum','size','count'])

dfgrouped['sum'][dfgrouped['size']!=dfgrouped['count']] = None

当这些不同时，您可以为该组的聚合函数的结果将值设置回无。

python - 具有 NaN（缺失）值的 pandas GroupBy 列

7 回答 7

熊猫 >= 1.1

Related

Reference