34

我有两个数据框。df1 是多索引的:

                value
first second    
a     x         0.471780
      y         0.774908
      z         0.563634
b     x         -0.353756
      y         0.368062
      z         -1.721840

和df2:

      value
first   
a     10
b     20

如何仅将两个数据框与一个多索引合并,在这种情况下是“第一个”索引?所需的输出将是:

                value1      value2
first second    
a     x         0.471780    10
      y         0.774908    10
      z         0.563634    10
b     x         -0.353756   20
      y         0.368062    20
      z         -1.721840   20
4

3 回答 3

20

你可以使用get_level_values

firsts = df1.index.get_level_values('first')
df1['value2'] = df2.loc[firsts].values

注意:你几乎在这里做一个join(除了df1是MultiIndex)......所以可能有一种更简洁的方式来描述这个......

.

在一个例子中(类似于你所拥有的):

df1 = pd.DataFrame([['a', 'x', 0.123], ['a','x', 0.234],
                    ['a', 'y', 0.451], ['b', 'x', 0.453]],
                   columns=['first', 'second', 'value1']
                   ).set_index(['first', 'second'])
df2 = pd.DataFrame([['a', 10],['b', 20]],
                   columns=['first', 'value']).set_index(['first'])

firsts = df1.index.get_level_values('first')
df1['value2'] = df2.loc[firsts].values

In [5]: df1
Out[5]: 
              value1  value2
first second                
a     x        0.123      10
      x        0.234      10
      y        0.451      10
b     x        0.453      20
于 2013-01-04T00:10:22.773 回答
12

根据文档,从 pandas 0.14 开始,您可以简单地加入单索引和多索引数据帧。它将匹配公共索引名称。该how论点与'inner'and一起按预期工作'outer',尽管有趣的是它似乎与 and 相反'left''right'这可能是一个错误吗?)。

df1 = pd.DataFrame([['a', 'x', 0.471780], ['a','y', 0.774908], ['a', 'z', 0.563634],
                    ['b', 'x', -0.353756], ['b', 'y', 0.368062], ['b', 'z', -1.721840],
                    ['c', 'x', 1], ['c', 'y', 2], ['c', 'z', 3],
                   ],
                   columns=['first', 'second', 'value1']
                   ).set_index(['first', 'second'])
df2 = pd.DataFrame([['a', 10], ['b', 20]],
                   columns=['first', 'value2']).set_index(['first'])

print(df1.join(df2, how='inner'))
                value1  value2
first second                  
a     x       0.471780      10
      y       0.774908      10
      z       0.563634      10
b     x      -0.353756      20
      y       0.368062      20
      z      -1.721840      20
于 2015-08-03T17:34:14.320 回答
3

由于.ix语法是重新索引的强大快捷方式,但在这种情况下,您实际上并没有进行任何组合的行/列重新索引,因此只需使用重新索引就可以更优雅地完成(对于我不起眼的味蕾):

来自海登的准备:

df1 = pd.DataFrame([['a', 'x', 0.123], ['a','x', 0.234],
                    ['a', 'y', 0.451], ['b', 'x', 0.453]],
                   columns=['first', 'second', 'value1']
                   ).set_index(['first', 'second'])
df2 = pd.DataFrame([['a', 10],['b', 20]],
                   columns=['first', 'value']).set_index(['first'])

然后这在 iPython 中看起来像这样:

In [4]: df1
Out[4]: 
              value1
first second        
a     x        0.123
      x        0.234
      y        0.451
b     x        0.453

In [5]: df2
Out[5]: 
       value
first       
a         10
b         20

In [7]: df2.reindex(df1.index, level=0)
Out[7]: 
              value
first second       
a     x          10
      x          10
      y          10
b     x          20

In [8]: df1['value2'] = df2.reindex(df1.index, level=0)

In [9]: df1
Out[9]: 
              value1  value2
first second                
a     x        0.123      10
      x        0.234      10
      y        0.451      10
b     x        0.453      20

您必须在重新索引方法中使用的级别的助记符:它说明您已经在更大的索引中覆盖的级别。因此,在这种情况下,df2 已经覆盖了 df1.index 的级别 0。

于 2013-01-08T04:17:51.167 回答