8

我想用每组中的观察次数来注释我的小提琴图。所以这个问题本质上和这个问题一样,除了:

  • python代替R,
  • seaborn 而不是 ggplot,以及
  • 小提琴图而不是箱线图

让我们以Seaborn API 文档中的这个例子为例:

import seaborn as sns
sns.set_style("whitegrid")
tips = sns.load_dataset("tips")
ax = sns.violinplot(x="day", y="total_bill", data=tips)

我想在小提琴上放置 n=62、n=19、n=87 和 n=76。这是可行的吗?

4

2 回答 2

9

在这种情况下,我喜欢预先计算带注释的值并将它们合并到分类轴中。换句话说,预先计算,例如“Thurs, N = xxx”

看起来像这样:

import seaborn as sns
sns.set_style("whitegrid")
ax= (
    sns.load_dataset("tips")
       .assign(count=lambda df: df['day'].map(df.groupby(by=['day'])['total_bill'].count()))
       .assign(grouper=lambda df: df['day'].astype(str) + '\nN = ' + df['count'].astype(str))
       .sort_values(by='day') 
       .pipe((sns.violinplot, 'data'), x="grouper", y="total_bill")
       .set(xlabel='Day of the Week', ylabel='Total Bill (USD)')   
)

在此处输入图像描述

于 2017-10-16T16:07:33.860 回答
3

您首先需要存储 y 位置和 x 位置的所有值(使用您的数据集)以便使用ax.text,然后一个简单的for循环可以将所有内容写入所需的位置:

import seaborn as sns
import matplotlib.pyplot as plt

tips = sns.load_dataset("tips")
ax = sns.violinplot(x="day", y="total_bill", data=tips)

yposlist = tips.groupby(['day'])['total_bill'].median().tolist()
xposlist = range(len(yposlist))
stringlist = ['n = 62','n = 19','n = 87','n = 76']

for i in range(len(stringlist)):
    ax.text(xposlist[i], yposlist[i], stringlist[i])

plt.show()

于 2017-10-16T14:28:54.617 回答