5

我正在尝试用 R 中的一些 ggplots 对最近的 MLB 草案进行一些分析

selection <- draft[c("Team","Division","Position")]
head(selection)

  Team   Division Position
1  pit NL Central        P
2  sea AL West           P
3  ari NL West           P
4  bal AL East           P
5  kc  AL Central        O
6  was NL East           I

其中 P = 投手,O = 外场等。

我想按每个分区中的位置显示球队选择的球员数量

p <- ggplot(data=selection, aes(x=Team, fill= Position))  + geom_bar(position="stack")
p <-  p + coord_flip()
p <- p+ ylab("Players Selected")
p <- p + facet_wrap(~Division)
p

这让我在那儿的路的一部分,但很没有吸引力

a) 分组有效,但所有团队都显示在每个分区网格中 - 即使每个分区中只有 5 或 6 个团队实际上 - 并且正确 - 显示数据

b) 通过坐标翻转,团队在页面下按字母倒序排列。我可以求助吗?留下理由也很好

c) 我如何将图例设置为 Pitching、Outfield 而不是 P 和 O - 这是我需要以某种方式设置和包含的向量

d) 看看每支球队选择对每种类型球员的比例也会很有趣。这是通过设置 position="fill" 来完成的。我可以将轴设置为 % 而不是 0 到 1。我还尝试设置 geom_vline(aes(xintercept=0.5) -and yintercept 以防考虑到翻转 - 但该线没有出现在沿 x 轴的中途标记处

非常感谢帮助

4

2 回答 2

7

编辑mlbtmp.txt:在获取数据(并将其存储在名为 的文本文件中)和更多实验之后,完成改造,包括来自其他答案的信息:

selection <- read.table("mlbtmp.txt",skip=1)
names(selection) <- c("row","League","Division","Position","Team")
## arrange order/recode factors
selection <- transform(selection,
       Team=factor(Team,levels=rev(levels(Team))),
                   Position=factor(Position,levels=c("P","I","C","O"),
                                  labels=c("Pitching","Infield",
                                    "Center","Outfield")))

facet_grid我玩弄了, facet_wrap, scales,等的各种排列coord_flip。有些按预期工作,有些则没有:

library(ggplot2)
p <- ggplot(data=selection, aes(x=Team, fill= Position))  +
  geom_bar(position="stack")
p + facet_grid(.~Division,scales="free_x") + coord_flip()  ## OK

## seems to fail with either "free_x" or "free_y"
p + facet_grid(Division~.,scales="free") + coord_flip()

## works but does not preserve 'count' axis:
p + facet_wrap(~Division,scales="free")

我最终使用facet_wrap(...,scales="free")并用于ylim约束轴。

p + facet_wrap(~Division,scales="free") + coord_flip() +
  ylim(0,60) + opts(axis.text.y=theme_text(hjust=0))

mlb1

原则上,可能有一种方法可以使用..density.., ..ncount..,..ndensity..或由计算的其他统计信息之一stat_bin而不是 default ..count..,但我找不到有效的组合。

相反(当坚持 ggplot 的即时转换时,这通常是最好的解决方案)我自己重塑了数据:

## pull out Team identification within Division and League
stab <- unique(subset(selection,select=c(Team,Division,League)))
## compute proportions by team
s2 <- melt(ddply(selection,"Team",function(x) with(x,table(Position)/nrow(x))))
## fix names
s2 <- rename(s2,c(variable="Position",value="proportion"))
## merge Division/League info back to summarized data
s3 <- merge(s2,stab)

p2 <- ggplot(data=s3, aes(x=Team, fill= Position,y=proportion))  +
  geom_bar(position="stack")+scale_y_continuous(formatter="percent")+
  geom_hline(yintercept=0.5,linetype=3)+ facet_wrap(~Division,scales="free") +
  opts(axis.text.y=theme_text(hjust=0))+coord_flip()

mlb2

显然可以在这里完成更多的美化工作,但这应该会让你大部分时间都在那里......

于 2011-06-09T18:58:42.517 回答
3

填补@Ben Bolker回答中的一些空白......

要以不同方式对团队进行排序,您需要将该列存储为一个因素。可能不会有一种简短、快速的方法来指定您想要的顺序,因为您很可能希望分别对每个部门的团队进行排序。这意味着您需要对所有团队进行排序,以使每个分区子集保持正确排序。类似的东西(这是示意图,在语法上不正确):

selection$Team <- factor(selection$Team,
    levels=c( (AL East teams in desired order), 
              (AL Central teams in desire order), etc))

根据您计算的其他内容,可能有一种快速的方法来指定它,或者您可能必须手动将它们写出来。

轴文本对齐可以通过修改

opts(axis.text.x=theme_text(hjust=1))

退后一步,请注意,使用 ggplot2 通常可以通过修改用于构建绘图的数据而不是绘图本身来找到解决方案。这是一种不同的思考方式,但一旦你习惯了它就会很方便。

于 2011-06-09T19:43:17.693 回答