对于下面的示例
import pandas as pd
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Ohio', 'Ohio',
'Nevada', 'Nevada','Nevada','Nevada'],
'year': [2000, 2000, 2000, 2002, 2002,
2002, 2002, 2002, 2002],
'pop': [1, 1, 1, 1, 1, 1, 1, 1, 1]}
df = pd.DataFrame(data)
输出
pop state year
0 1 Ohio 2000
1 1 Ohio 2000
2 1 Ohio 2000
3 1 Ohio 2002
4 1 Ohio 2002
5 1 Nevada 2002
6 1 Nevada 2002
7 1 Nevada 2002
8 1 Nevada 2002
对于每个州+年份组合,我需要pop总和,但是,排序需要基于州级别。
所以我需要计数中的计数,并在第一级完成排序。输出就像
state year sum
Ohio 2000 3
2002 2
Nev. 2002 4
如您所见,俄亥俄州位居榜首,因为总和为 5,其总组有更多项目。
展示是关键,我只想展示一次俄亥俄州。
我相信我需要在 Pandas 上使用分层索引,但是我无法弄清楚确切的语法。stack / unstack 在这里有用吗?