8

我正在尝试合并来自不同参与者的时间课程数据。我迭代地为每个参与者提取一个数据帧,并在循环结束时将它们连接起来。在连接之前,我想将参与者的 ID 添加到附加索引中。

这看起来真的很简单,但我在这个问题上找不到任何东西:(

我想把这个

    col
0     1
1   1.1
2   NaN

进入:

          col
ID    0     1
      1   1.1
      2   NaN

我知道我可以创建一个新索引,例如:

multindex = [np.array(ID*len(data)),np.array(np.arange(len(data)))]

但这很不雅,而且 - 看到我在半小时内高频测量 - 甚至会变得有点慢:/

我想提一下,我最近发现我的问题与另一个问题重复。然而,我的显然有更多的赞成票和更好的答案。“Prepend”显然似乎没有吸引那么多的点击量。

4

1 回答 1

13

也许您可以使用以下keys参数concat

import numpy as np
import pandas as pd

df1 = pd.DataFrame(np.random.rand(3, 2))
df2 = pd.DataFrame(np.random.rand(4, 2))
df3 = pd.DataFrame(np.random.rand(5, 2))

print pd.concat([df1, df2, df3], keys=["A", "B", "C"])

输出:

            0         1
A 0  0.863774  0.794880
  1  0.578503  0.418619
  2  0.215317  0.146167
B 0  0.655829  0.116917
  1  0.862316  0.812847
  2  0.500126  0.689218
  3  0.653439  0.270427
C 0  0.825213  0.882963
  1  0.579436  0.332047
  2  0.456948  0.718893
  3  0.795074  0.826773
  4  0.049676  0.697471

如果您想稍后附加其他数据框:

df4 = pd.DataFrame(np.random.rand(6, 2))
pd.concat([df, pd.concat([df4], keys=["D"])])
于 2013-11-20T01:39:05.417 回答