python - Pandas：计算仅在两列中不同的所有条目的平均值

Question

我刚刚拿起pandas，认为它将使我能够在 python 中很好地进行数据分析。现在我有pandas以下形式的数据框：

pandas.DataFrame({"p1": [1, 1, 2, 2, 3, 3]*2,
                  "p2": [1]*6+[2]*6,
                  "run": [1, 2]*6,
                  "result": xrange(12)})

    p1  p2  result  run
0    1   1       0    1
1    1   1       1    2
2    2   1       2    1
3    2   1       3    2
4    3   1       4    1
5    3   1       5    2
6    1   2       6    1
7    1   2       7    2
8    2   2       8    1
9    2   2       9    2
10   3   2      10    1
11   3   2      11    2

我想生成一个框架，其中包含每组参数的一个条目，p1以及这些参数p2的所有值的平均值result，即

   p1  p2  result
0   1   1     0.5
1   2   1     2.5
2   3   1     4.5
3   1   2     6.5
4   2   2     8.5
5   3   2    10.5

这样做的pandas方法是什么？我会尝试复制原始表，删除不同的列（result和run），重新索引，再次将这两个东西与新索引组合为多索引，然后运行该外部多索引级别的平均方法。这是这样做的方法吗，如果是，我该如何在代码中正确地做这些索引？

score 6 · Accepted Answer

您可以使用 groupby （我已将您的数据框称为 df）：

df.groupby(['p1', 'p2']).mean()

这会产生一个 MultiIndex DataFrame。要获取问题中的布局，请仅选择所需的列并重置索引：

df.groupby(['p1', 'p2']).mean()['result'].reset_index()

python - Pandas：计算仅在两列中不同的所有条目的平均值

1 回答 1

Related

Reference