我偶然发现了pandas,它看起来非常适合我想做的简单计算。我有 SAS 背景,并认为它会取代 proc freq - 看起来它会扩展到我将来可能想做的事情。但是,我似乎无法完成一项简单的任务(我不确定我是否应该看看pivot/crosstab/indexing
- 我是否应该有一个Panel
或DataFrames
等等......)。有人可以给我一些关于如何执行以下操作的指示:
我有两个 CSV 文件(一个用于 2010 年,一个用于 2011 年 - 简单的交易数据) - 列是类别和金额
2010年:
AB,100.00
AB,200.00
AC,150.00
AD,500.00
2011年:
AB,500.00
AC,250.00
AX,900.00
这些被加载到单独的 DataFrame 对象中。
我想做的是获取类别、类别的总和以及类别的频率,例如:
2010年:
AB,300.00,2
AC,150.00,1
AD,500.00,1
2011年:
AB,500.00,1
AC,250.00,1
AX,900.00,1
我不知道我是否应该使用pivot/crosstab/groupby/an index
等...我可以得到总和或频率 - 我似乎无法同时得到两者......它变得有点复杂,因为我想这样做一个月一个月,但我想如果有人能这么好心地指出我正确的技术/方向,我就可以从那里开始。