4

我有以下数据帧

user_id  var  qualified_date    loyal_date
  1       1      2017-01-17     2017-02-03
  2       1      2017-01-03     2017-01-13
  3       1      2017-01-11      NaT
  4       1       NaT            NaT
  5       1       NaT            NaT
  6       2      2017-01-15      2017-02-14
  7       2      2017-01-07      NaT
  8       2      2017-01-23      2017-02-18
  9       2      2017-01-25      NaT
  10      2      2017-01-11      2017-03-01

我需要按“Var”中的值对这个数据框进行分组,然后计算每个“qualified_date”和“engaged_date”列的非缺失值的数量。我可以单独为每一列执行此操作并将它们手动放入数据框中,但我正在寻找一种 gr​​oupby 方法或类似的方法,在这种方法中我可以自动找到一个新的 DF,而不是在“var”中作为索引和两列的值显示每个组的非缺失值的计数。

像这样

var  qualified_count loyal_count
 1       xx            xx
 2       xx            xx
4

1 回答 1

6

您可以在计数时使用DF.GroupBy.count其中仅包括非NaN条目。因此,您可以让var成为分组键,然后分别聚合两个选定列的计数,DF如下所示:

cols = ['qualified_date', 'loyal_date']
df.groupby('var')[cols].agg('count').add_suffix("_count").reset_index()

在此处输入图像描述

于 2017-03-17T08:52:42.863 回答