10
require(ggplot2)
require(cowplot)
d = iris

ggplot2::ggplot(d, aes(factor(0), Sepal.Length)) + 
    geom_violin(fill="black", alpha=0.2, draw_quantiles = c(0.25, 0.5, 0.75)
                , colour = "red", size = 1.5) +
    stat_boxplot(geom ='errorbar', width = 0.1)+
    geom_boxplot(width = 0.2)+
    facet_grid(. ~ Species, scales = "free_x") +
    xlab("") + 
    ylab (expression(paste("Value"))) +
    coord_cartesian(ylim = c(3.5,9.5)) + 
    scale_y_continuous(breaks = seq(4, 9, 1)) + 
    theme(axis.text.x=element_blank(),
          axis.text.y = element_text(size = rel(1.5)),
          axis.ticks.x = element_blank(),
          strip.background=element_rect(fill="black"),
          strip.text=element_text(color="white", face="bold"),
          legend.position = "none") +
    background_grid(major = "xy", minor = "none") 

箱线图与小提琴图

据我所知,以箱线图结尾的方框分别代表 25% 和 75% 的分位数,中位数 = 50%。所以它们应该等于参数中绘制的 0.25/0.5/0.75 分geom_violin位数draw_quantiles = c(0.25, 0.5, 0.75)

中位数和 50% 分位数拟合。但是,0.25 和 0.75 分位数都不适合箱线图的箱端(见图,尤其是 'virginica' 刻面)。

参考:

  1. http://docs.ggplot2.org/current/geom_violin.html

  2. http://docs.ggplot2.org/current/geom_boxplot.html

4

2 回答 2

10

评论太长了,所以我将其发布为答案。我看到了分歧的两个潜在来源。首先,我的理解是,boxplot指的是boxplot.stats,它的用途hinges非常相似,但不一定与分位数相同。 ?boxplot.stats说:

两个“铰链”是第一个和第三个四分位数的版本,即接近 quantile(x, c(1,3)/4)。铰链等于奇数 n 的四分位数(其中 n <- 长度(x))并且对于偶数 n 不同。虽然四分位数仅等于 n %% 4 == 1 (n = 1 mod 4) 的观察值,但铰链对于 n %% 4 == 2 (n = 2 mod 4) 的观测值也相同,并且位于两个中间否则观察。

因此,hinge vs quantile差异可能是差异的一个来源。

geom_violin是指密度估计。这里的源代码指向一个函数StatYdensity,它把我引到这里。我找不到函数compute_density,但我认为(也由于帮助文件中的一些指针)它本质上是density,默认情况下使用高斯核估计来估计密度。这可能(也可能不会)解释这些差异,但是

by(d$Sepal.Length, d$Species, function(x) boxplot.stats(x, coef=5)$stats )
by(d$Sepal.Length, d$Species, function(v) quantile(density(v)$x))

确实显示出不同的价值观。因此,我猜测差异是由于我们是基于观察的经验分布函数还是基于核密度估计来查看分位数,尽管我承认我还没有最终证明这一点。

于 2016-03-16T13:17:01.620 回答
0

@coffeinjunky 提出的第二个因素似乎是主要原因。这里有更多的证据来支持这一点。

通过切换到geom_ydensity,可以凭经验确认差异是由于geom_violin使用核密度估计来计算分位数,而不是实际观察结果。例如,如果我们强制使用较宽的带宽 ( bw=1),那么估计的密度将被过度平滑,并进一步偏离箱线图中使用的基于观察的分位数:

require(ggplot2)
require(cowplot)

theme_set(cowplot::theme_cowplot())

d = iris

ggplot2::ggplot(d, aes(factor(0), Sepal.Length)) + 
  stat_ydensity(bw=1, fill="black", alpha=0.2, draw_quantiles = c(0.25, 0.5, 0.75)
              , colour = "red", size = 1.5) +
  stat_boxplot(geom ='errorbar', width = 0.1)+
  geom_boxplot(width = 0.2)+
  facet_grid(. ~ Species, scales = "free_x") +
  xlab("") + 
  ylab (expression(paste("Value"))) +
  coord_cartesian(ylim = c(3.5,9.5)) + 
  scale_y_continuous(breaks = seq(4, 9, 1)) + 
  theme(axis.text.x=element_blank(),
        axis.text.y = element_text(size = rel(1.5)),
        axis.ticks.x = element_blank(),
        strip.background=element_rect(fill="black"),
        strip.text=element_text(color="white", face="bold"),
        legend.position = "none") +
  background_grid(major = "xy", minor = "none") 

在此处输入图像描述

所以,是的,小心这个——密度估计的参数会影响结果!

于 2020-04-27T06:35:57.443 回答