95

PandasDataFrame包含名为"date"包含非唯一datetime值的列。我可以使用以下方法对该框架中的行进行分组:

data.groupby(data['date'])

但是,这会按值拆分数据datetime。我想按存储在“日期”列中的年份对这些数据进行分组。此页面显示在时间戳用作索引的情况下如何按年份分组,在我的情况下并非如此。

我如何实现这个分组?

4

6 回答 6

115

我正在使用熊猫 0.16.2。这在我的大型数据集上具有更好的性能:

data.groupby(data.date.dt.year)

使用该dt选项并使用weekofyeardayofweek变得容易得多。

于 2015-09-25T13:55:49.410 回答
80

ecatmur 的解决方案可以正常工作。但是,这将在大型数据集上表现更好:

data.groupby(data['date'].map(lambda x: x.year))
于 2012-07-09T14:25:27.513 回答
39

使用示例数据集可能更容易解释这一点。

创建示例数据

假设我们有一列 Timestamps,date而另一列我们想对其执行聚合a

df = pd.DataFrame({'date':pd.DatetimeIndex(['2012-1-1', '2012-6-1', '2015-1-1', '2015-2-1', '2015-3-1']),
                   'a':[9,5,1,2,3]}, columns=['date', 'a'])

df

        date  a
0 2012-01-01  9
1 2012-06-01  5
2 2015-01-01  1
3 2015-02-01  2
4 2015-03-01  3

有几种按年份分组的方法

  • 将 dt 访问器与year属性一起使用
  • 放入date索引并使用匿名函数访问年份
  • 使用resample方法
  • 转换为熊猫时期

.dtyear有财产的访问者

当您有一列(而不是索引)熊猫时间戳时,您可以使用访问器访问更多额外的属性和方法dt。例如:

df['date'].dt.year

0    2012
1    2012
2    2015
3    2015
4    2015
Name: date, dtype: int64

我们可以使用它来形成我们的组并计算特定列上的一些聚合:

df.groupby(df['date'].dt.year)['a'].agg(['sum', 'mean', 'max'])

      sum  mean  max
date                
2012   14     7    9
2015    6     2    3

将日期放入索引并使用匿名函数访问年份

如果将日期列设置为索引,它将成为具有与dt访问器提供普通列相同的属性和方法的 DateTimeIndex

df1 = df.set_index('date')
df1.index.year

Int64Index([2012, 2012, 2015, 2015, 2015], dtype='int64', name='date')

有趣的是,当使用 groupby 方法时,您可以向它传递一个函数。此函数将隐式传递 DataFrame 的索引。因此,我们可以从上面得到相同的结果,如下所示:

df1.groupby(lambda x: x.year)['a'].agg(['sum', 'mean', 'max'])

      sum  mean  max
2012   14     7    9
2015    6     2    3

使用resample方法

如果您的日期列不在索引中,则必须使用on参数指定该列。您还需要将偏移别名指定为字符串。

df.resample('AS', on='date')['a'].agg(['sum', 'mean', 'max'])

             sum  mean  max
date                       
2012-01-01  14.0   7.0  9.0
2013-01-01   NaN   NaN  NaN
2014-01-01   NaN   NaN  NaN
2015-01-01   6.0   2.0  3.0

转换为熊猫时期

您还可以将日期列转换为 pandas Period 对象。我们必须将偏移别名作为字符串传递来确定 Period 的长度。

df['date'].dt.to_period('A')

0   2012
1   2012
2   2015
3   2015
4   2015
Name: date, dtype: object

然后我们可以将其用作一个组

df.groupby(df['date'].dt.to_period('Y'))['a'].agg(['sum', 'mean', 'max'])


      sum  mean  max
2012   14     7    9
2015    6     2    3
于 2017-11-06T15:34:22.983 回答
15

这应该有效:

data.groupby(lambda x: data['date'][x].year)
于 2012-07-09T12:39:29.280 回答
0

这也可以

data.groupby(data['date'].dt.year)

于 2017-10-08T20:39:27.100 回答
0

采用:

data.groupby(['col1', data.date.dt.year]).agg({'col2': 'agg_func'}).reset_index()

如果您想从日期时间列和另一个不同类型的列(col1)按年份分组

于 2021-10-05T21:43:12.017 回答