我通常会在 SQL 和 excel 中做很多事情,而我正在尝试用 Pandas 做这些事情。这里有几个不同的争论问题,合并为一个问题,因为它们都有相同的目标。
我在python中有一个包含三列的数据框df:
| EventID | PictureID | Date
0 | 1 | A | 2010-01-01
1 | 2 | A | 2010-02-01
2 | 3 | A | 2010-02-15
3 | 4 | B | 2010-01-01
4 | 5 | C | 2010-02-01
5 | 6 | C | 2010-02-15
EventID 是唯一的。PictureID 不是唯一的,尽管 PictureID + Date 是不同的。
一、首先我想添加一个新列:
df['period'] = the month and year that the event falls into beginning 2010-01.
二、其次,我想将数据“融合”到一些新的数据帧中,该数据帧计算给定 PictureID 在给定时间段内的事件数。我将使用只有两个句点的示例。
| PictureID | Period | Count
0 | A | 2010-01 | 1
1 | A | 2010-02 | 2
2 | B | 2010-01 | 1
3 | C | 2010-02 | 2
这样我就可以将(?)这个新的数据帧堆叠到为所有唯一的 PictureID 提供周期计数的东西中:
| PictureID | 2010-01 | 2010-02
0 | A | 1 | 2
1 | B | 1 | 0
2 | C | 0 | 2
我的感觉是熊猫很容易做这种事情,对吗?
[编辑:删除了令人困惑的第三部分。]