4

我有一个pandas.DataFrame不会像我期望的那样旋转。虽然pivot_table正确安排了所有内容,但它使用聚合函数来实现这一事实令人反感。此外,pivot_table似乎返回了一个不必要的复杂对象,而不是一个平面数据框。

考虑以下示例

import pandas as pd
df = pd.DataFrame({'firstname':['Jon']*3+['Amy']*2,
                   'lastname':['Cho']*3+['Frond']*2,
                   'vehicle':['bike', 'car', 'plane','bike','plane'],
                   'weight':[81.003]*3+[65.6886]*2,
                   'speed':[29.022, 95.1144, 302.952, 27.101, 344.2],})
df.set_index(['firstname','lastname','weight'])

print('------  Unnecessary pivot_table does averaging  ------')
print(pd.pivot_table(df, values='speed',
                         rows='firstname','lastname','weight'],
                         cols='vehicle'))

print('------ pivot method dies  ------')
print(df.pivot( index=['firstname','lastname','weight'],
                columns='vehicle',
                values='speed'))

结果pivot_table

vehicle                       bike      car    plane
firstname lastname weight                           
Amy       Frond    65.6886  27.101      NaN  344.200
Jon       Cho      81.0030  29.022  95.1144  302.952

有没有办法pivot提供与命令基本相同的输出pivot_table(但希望更平坦、更整洁)?如果做不到这一点,我如何使输出变平pivot_table?我想要的输出更像是这样的:

firstname lastname weight     bike      car    plane                           
Amy       Frond    65.6886  27.101      NaN  344.200
Jon       Cho      81.0030  29.022  95.1144  302.952
4

1 回答 1

7

如果您不想要 的聚合pivot_table,则确实需要该pivot功能。但是,pivot不适用于提供多个索引列(实际上我不知道为什么)。但是,有一个类似于 pivot 的函数unstack,它的工作原理相同,但基于(多)索引而不是列。

因此,要使用它,您可以首先将您想要的列设置为结果中的索引/列标签作为索引:

df2 = df.set_index(['firstname','lastname','weight', 'vehicle'])

然后在最后一层(默认)取消堆叠,等等“车辆”(成为列标签):

In [3]: df2.unstack()
Out[3]:
                             speed
vehicle                       bike      car    plane
firstname lastname weight
Amy       Frond    65.6886  27.101      NaN  344.200
Jon       Cho      81.0030  29.022  95.1144  302.952

如果您不想要多索引,您可以使用reset_index.
唯一可能遇到的问题是列也有两个级别,因此您可以先删除第一级,然后重置索引以成为一个非常平坦的数据框:

In [17]: df3 = df2.unstack()

In [18]: df3.columns = df3.columns.droplevel(0)

In [19]: df3.reset_index()
Out[19]:
vehicle firstname lastname   weight    bike      car    plane
0             Amy    Frond  65.6886  27.101      NaN  344.200
1             Jon      Cho  81.0030  29.022  95.1144  302.952
于 2013-09-10T20:32:27.530 回答