我有一个数据集,其中包含制造单位的唯一 ID、其产出的行业分类 (CAT) 和每个单位雇用的人数 (EMP)。我想以图形方式显示 EMP 因 CAT 而异,即就业规模通常因单位生产的产出类型而异。我尝试了按 EMP 中值排列的箱线图:
a = read.csv("/filepath/plot.csv", header=T, stringsAsFactors=F)
bymedian = with(a, reorder(CAT, log(as.numeric(as.character(EMP))), median))
boxplot(log(EMP) ~ bymedian, data=a, horizontal=F, notch=T, pch=1, cex=.25, col="gray95", boxwex=.25, las=2, outline=F)
pch=1, cex=.25, col="gray95", boxwex=.25, las=2, outline=F)
问题是因为类别太多(400+),情节变得很乱。有没有更简洁的方式来展示我正在尝试做的事情?