python - 融化唯一索引的熊猫数据框，用于 ggplot/rpy2

Question

这个问题与（在 Python pandas 中拆分和连接数据帧以使用 rpy2 进行绘图）有关。我正在使用 pandas 数据框，并对它们进行各种熔化/解熔化/连接操作，以便我可以使用 rpy2 用 ggplot2 绘制它们。我对如何对具有唯一索引的数据帧执行这些操作感到有些困惑。假设数据框df有一个唯一的列， runner_id该列记录每个跑步者完成两场比赛之一的时间和速度，比赛A和B. 每个跑步者都是独一无二的，因此 DataFrame 可以为两个跑步者具有这种形状，bob并且mary：

df = pandas.DataFrame([{"runner_id": "bob", "time_A": 30,
                        "time_B": 25, "speed_A": 5, "speed_B": 10},
                       {"runner_id": "mary", "time_A": 29,
                        "time_B": 19, "speed_A": 8, "speed_B": 12}])

df看起来像这样：

  runner_id  speed_A  speed_B  time_A  time_B
0       bob        5       10      30      25
1      mary        8       12      29      19

由于跑步者是独一无二的，因此索引 dataframe 非常方便runner_id。它还可以防止意外添加重复条目，因为我们知道每个跑步者的所有信息都应该保存在跑步者的行中，并且每个跑步者不能有多个行：

df = df.set_index("runner_id")

问题是 ggplot 需要使用列名中的信息time_A, time_B, speed_A, speed_B，如果我们想绘制两个种族之间的时间或速度差异。然后df需要看起来像这样：

runner_id  race  time  speed 
bob        A     ...   ...
mary       A     
bob        B
mary       B

这样我们就可以做到：

ggplot2.ggplot(df) + \
ggplot2.geom_point(aes_string(x="time", y="speed", colour="race")) ...

虽然这违反了runner_id条目的唯一性，因为跑步者需要被复制。一般如何处理这个问题？是否有一个很好的形式可以保留df，允许唯一的索引，但也方便 ggplot 的融化表示？我发现在这两者之间来回切换非常困难/令人困惑。每场比赛有不同的时间/速度列的第一个表示，由跑步者索引，非常直观，而 ggplot 的融化表示令人困惑，似乎很浪费。

任何关于在这两个或关于如何保留数据框的一般规则之间来回转换的想法都会有所帮助。set_index使用ggplot时的答案不是索引（不是调用）吗？这种数据帧有首选格式吗？

一种可能的解决方案是在解开/熔化时始终索引/取消索引 df，例如：

melted_df = pandas.melt(df.reset_index(), id_vars="runner_id")

但这似乎容易出错。例如，如果我想计算每个跑步者的速度和A比赛时间的平均值，我可以尝试列出A条目：

# This is already complicated
a_entries = melted_df[map(lambda x: x.endswith("_A"), melted_df["variable"])]

我知道有冗余/融化的表示，所以很难做不重复计算跑步者的操作，因为每个跑步者现在出现两次：

  runner_id variable  value
0       bob  speed_A      5
1      mary  speed_A      8
4       bob   time_A     30
5      mary   time_A     29

score 1 · Accepted Answer

熔化和铸造数据帧是 R. Hadley 包中的常见操作reshape（并且发现reshape2原始数据帧的地方melt()很受欢迎是有原因的）。

使用 ggplot2，您还可以将数据添加到图层中。用你的例子：

import rpy2.robjects.pandas2ri
rpy2.robjects.pandas2ri.activate()

p = ggplot2.ggplot(rpy2.robjects.conversion.py2ri(df)) + \
    ggplot2.geom_point(ggplot2.aes_string(x="time_A",y="speed_A"),colour="#ff0000") + \
    ggplot2.geom_point(ggplot2.aes_string(x="time_B",y="speed_B"),colour="#0000ff") + \
    ggplot2.scale_x_continuous("time") + \
    ggplot2.scale_y_continuous("speed")
p.plot()

score 0 · Accepted Answer

对一个长问题的简短而迟到的回答：您似乎可以使用一些帮助来理解长格式数据帧。每个值都是唯一的，因为每场比赛只有一个具有给定名称的“跑步者”。它起初可以融化你的大脑，但对于利用 ggplot2 的功能来说非常强大和必不可少。Hadley Wickham 在几篇文章中很好地解释了这一点，例如：http ://had.co.nz/reshape/paper-dsc2005.pdf

python - 融化唯一索引的熊猫数据框，用于 ggplot/rpy2

2 回答 2

Related

Reference