pandas - 规范化多索引数据框中的值？

Question

如何规范化多索引数据框？

假设我有数据框：

d = pd.DataFrame([["a",1,3],["a",2,2],["b",4,4],["b",5,8]], 
                  columns=["name","value1","value2"])

如何计算每个“名称”的标准化值？

我知道如何规范化基本数据框：

d = (d-d.mean(axis=0))/data.std(axis=0, ddof=1)

但我无法将其应用于我的数据框的每个“名称”组

所以我想要的结果是：

name, value1, value2
a     -0.5     0.5
a      0.5    -0.5
b     -0.5    -1
b      0.5     1

我尝试了 groupby 和多索引数据框，但可能我没有以正确的方式进行操作

score 7 · Accepted Answer

按组规范化是groupby 文档中的示例之一。但它并不完全符合您在这里的要求。

In [2]: d.groupby('name').transform(lambda x: (x-x.mean())/x.std(ddof=1))
Out[2]: 
     value1    value2
0 -0.707107  0.707107
1  0.707107 -0.707107
2 -0.707107 -0.707107
3  0.707107  0.707107

您想要的结果表明您实际上希望参考和中的元素对每个名称组中的值进行value1规范化value2。对于类似的事情，您可以将一个函数单独应用于每个组，然后重新组合结果。

In [3]: def normalize(group):                                                      
    mean = group.values.ravel().mean()
    std = group.values.ravel().std(ddof=1)
    return group.applymap(lambda x: (x - mean)/std)
   ....: 

In [4]: pd.concat([normalize(group) for _, group in d.set_index('name').groupby(level=0)])
Out[4]: 
        value1    value2
name                    
a    -1.224745  1.224745
a     0.000000  0.000000
b    -0.660338 -0.660338
b    -0.132068  1.452744

score 0 · Accepted Answer

你确定你给出的结果是正确的吗？我假设您想分别规范化 value1 和 value2 。如果这不正确，请告诉我。

#  Easier with `name` as the index.

In [65]: d = d.set_index('name')

In [66]: d
Out[66]: 
      value1  value2
name                
a          1       3
a          2       2
b          4       4
b          5       8

In [68]: means = g.mean()

In [69]: stds = g.std()

In [70]: means
Out[70]: 
      value1  value2
name                
a        1.5     2.5
b        4.5     6.0

In [71]: stds
Out[71]: 
        value1    value2
name                    
a     0.707107  0.707107
b     0.707107  2.828427

In [76]: g.transform(lambda x: (x - means) / stds)
Out[76]: 
        value1    value2
name                    
a    -0.707107  0.707107
a     0.707107 -0.707107
a          NaN       NaN
b          NaN       NaN
b    -0.707107 -0.707107
b     0.707107  0.707107

# Get rid of the nans

In [77]: g.transform(lambda x: (x - means) / stds).dropna()
Out[77]: 
        value1    value2
name                    
a    -0.707107  0.707107
a     0.707107 -0.707107
b    -0.707107 -0.707107
b     0.707107  0.707107

pandas - 规范化多索引数据框中的值？

2 回答 2

Related

Reference