同样的问题已发布在 pydata google group 上。
我想做一个自定义连接,即使用按对象分组中的行来创建新的列。
这是一个人为的例子:
Input data frame
name age
foo 12
bar 14
df = pandas.DataFrame({ 'name':['foo','bar'],'age': [12,14] })
expected output, a pandas data frame with four cols
foo 12 bar 14
PS:我正在寻找一种有效的解决方案,因为这将应用于包含 800k 奇数分组的分组 pandas 对象。
样本 800k 数据将具有以下结构。我仍在使用类比,因为实际数据是科学的,列名可能不直观
Subject (grouped by col)
Name Age mark1
Foo 12 80
Bar 14 90
我们想要从这个按数据分组的是以下数据框
Subject Foo 12 80 Bar 14 90