1

我正在尝试将以下代码转换为 Rpy2,但没有成功:

neworder <- c("virginica","setosa","versicolor")
library("plyr")
iris2 <- arrange(transform(iris,
             Species=factor(Species,levels=neworder)),Species)

在这种情况下,这意味着只是更改factor特定列的顺序Species

我也不想plyr在 Rpy2 中使用所有这些东西,因为我可以修改绘制为 Python 对象的数据框。以下不起作用:

# start with Python df 'mydf' and convert to R df
# to get mydf_r. The column equivalent of Species here
# is "variable"
# ...
mydf_r.variable = r.factor(ro.StrVector(["a", "b", "c"]))
# call ggplot...
ggplot2.ggplot(mydf) + ...

这不起作用。如何获得等效的 R 代码?即我有一个熔化的数据框,其中有几个variable绘制为的值,c, b, a我想a, b, c通过更改factor. variable谢谢。

编辑我可以使用以下代码更改顺序:

labels = robj.StrVector(tuple(["a", "b", "c"]))
variable_factor = r.factor(labels, levels=labels)
r_melted = r.transform(r_melted, **{"variable": variable_factor})
p = ggplot2.ggplot(r_melted) + \
    ggplot2.geom_boxplot(aes_string(**{"x": "variable",
                                       "y": "value"
                                        "fill": "group"})) + \
    ggplot2.scale_fill_manual(values=np.array(["#00BA38", "#F8766D"])) + \
    ggplot2.coord_flip()

但是,这破坏了 ggplot 正确制作箱线图并按group变量对其进行颜色编码的能力。如果我删除这些行:

labels = robj.StrVector(tuple(["a", "b", "c"]))
variable_factor = r.factor(labels, levels=labels)
r_melted = r.transform(r_melted, **{"variable": variable_factor})

然后一切正常......我想要的只是改变variable值出现在箱线图中的顺序。

@lgautier:您提供的解决方案看起来像我想要的,但在这里对我不起作用。我用数据集为它做了一个测试用例iris

原情节

import os
iris = pandas.read_table(os.path.expanduser("~/iris.csv"),
                         sep=",")
iris["Species"] = iris["Name"]
r_melted = conversion_pydataframe(iris)
p = ggplot2.ggplot(r_melted) + \
    ggplot2.geom_boxplot(aes_string(**{"x": "PetalLength",
                                       "y": "PetalWidth",
                                       "fill": "Species"})) + \
    ggplot2.facet_grid(Formula("Species ~ .")) + \
    ggplot2.coord_flip()
p.plot()

产生:

在此处输入图像描述

但如果我添加:

labels = robj.StrVector(tuple(["versicolor", "virginica", "setosa"]))
variable_i = r_melted.names.index("Species")
r_melted[variable_i] = robj.FactorVector(r_melted[variable_i],
                                         levels=labels)

在绘图之前,我得到:

在此处输入图像描述

Species我认为这是因为我使用的名称与名称值不完全匹配。如果 rpy2 在发生这种情况时引发错误,那将很有帮助。但无论如何,如果我想覆盖因子的名称怎么办?即取第一个因素名称并使其成为x第二个y等,并按该顺序显示?这样做的唯一方法是在数据框中使用正确的名称为其创建一个新列吗?

4

1 回答 1

2

您需要即时更改所用因子的级别(下面的第一个示例),或者在数据框的列中更改(第二个示例)。

如果labels是一个相对较短的列表,则以下内容将起作用:

# r_melted is the one defined upstream of your code snippet,
# not the results of calling r.transform()
labels = robj.StrVector(tuple(["a", "b", "c"]))
p = ggplot2.ggplot(r_melted) + \
    ggplot2.geom_boxplot(aes_string(**{"x": "factor(variable, levels = %s)" % labels,
                                       "y": "value"
                                       "fill": "group"})) + \
    ggplot2.scale_fill_manual(values=np.array(["#00BA38", "#F8766D"])) + \
    ggplot2.coord_flip()

如果labels更大(或根本不需要 R 代码):

# r_melted is the one defined upstream of your code snippet,
# not the results of calling r.transform()
from rpy2.robjects.vectors import FactorVector
variable_i = r_melted.names.index('variable')
r_melted[variable_i] = FactorVector(r_melted[variable_i],
                                    levels = robj.StrVector(tuple(["a", "b", "c"]))
p = ggplot2.ggplot(r_melted) + \
    ggplot2.geom_boxplot(aes_string(**{"x": "variable",
                                       "y": "value"
                                       "fill": "group"})) + \
    ggplot2.scale_fill_manual(values=np.array(["#00BA38", "#F8766D"])) + \
    ggplot2.coord_flip()
于 2013-03-08T15:46:33.660 回答