0

不确定这是否超出了 Stack Overflow 的范围。让我知道是不是。

我的输入数据

我正在尝试可视化(或执行一些尚未确定的分析)在 468 次不同捕获会话期间捕获的个体的大小分布。捕获会话被标记为“id”,我创建了一个新列“newID”,为简单起见,从 1:468 开始对会话进行编号(如果有人对代码感兴趣,我做了一个很好的循环来创建这个新列)。我正在绘制的尺寸在“SL”列中。

我还有指定捕获会话期间发生的“日期”、“年”、“月”、“位置”和“溪流”的列。数据肯定可以分成更小的部分(例如,有 4 条小溪,所以我可以为每条小溪单独绘制图),但我不想沿着这条路走下去,除非那是我唯一的选择。

到目前为止,我已经使用以下代码完成了一个简单的由“年份”分面的初步绘图(只是为了简单起见,因此数据不会堆叠得太紧密):

library(ggplot2)
CreekDat <-read.table("CreekData.txt",header=TRUE)
CreekData4<-data.frame(CreekDat)

DOT <-ggplot(CreekData4,aes(newID,SL,color=factor(newID)))
DOT<-DOT+facet_grid(Year~.)
DOT<-DOT+stat_boxplot(aes(x = newID,y=SL))
DOT

并得到了这个结果http://ufsnook.smugmug.com/photos/i-psJZ6kw/0/X3/i-psJZ6kw-X3.jpg

有大约 500 个事件我想显示其大小分布有点多......我想知道是否有人知道可能适用于该数据的任何其他绘图选项,对在我目前使用的箱线图中工作有任何建议,或者对我可以查看的非视觉分析有任何想法。

4

1 回答 1

2

这是一个有趣的。我最终将数据分箱并聚合。

require(ggplot2)

# read the file into a data frame
CreekData <-read.table("CreekData.txt",header=TRUE)

# fix the date
CreekData$Date <- as.POSIXct(paste(CreekData$Year,
                                   CreekData$Month,
                                   "1 12:00",
                                   sep = "-"),
                             format = "%y-%m-%d %H:%M",
                             tz = "GMT")
# bin the size
CreekData$SL.binned <- cut(CreekData$SL,
                           breaks = c(seq(0,500,50),1000),
                           labels = c(paste(seq(0,450,50),
                                            "-",
                                            seq(50,500,50)),
                                      ">500"),
                           right = FALSE,
                           ordered_result = TRUE)
# add something we can sum!
CreekData$SL.bin.count <- rep(1,length(CreekData$SL.binned))

# aggregate it
CreekDataAg <- aggregate(x = CreekData$SL.bin.count,
                         by = list("Date" = CreekData$Date,
                                   "Location" = CreekData$Location,
                                   "SL.binned" = CreekData$SL.binned),
                         FUN = sum)
names(CreekDataAg)[4] <- "Count"

# plot it
p <- ggplot(data = CreekDataAg,
            aes(x = Date,
                y = SL.binned)) +
  geom_tile(aes(fill = Count,
                color = Count),
            size = 0) +
  facet_wrap(~Location) +
  scale_fill_gradient(name = "Count",
                      low = "grey50",
                      high = "steelblue") +
  scale_color_gradient(low = "grey50",
                       high = "steelblue") +
  scale_y_discrete(drop=FALSE) +
  labs(title = expression(atop("Count by size interval",
                               atop(italic("something else")))),
       x = "Date",
       y = "Size range") +
  theme_bw(base_size = 8, base_family = "")
print(p)

然后你会得到一个看起来像这样的情节:

在此处输入图像描述

它需要一些工作来修复情节中的颜色,但这应该不会太难。

您还可以按 ID 分箱,将Date聚合中的替换为newID. 这让你...

在此处输入图像描述

于 2013-06-24T22:53:44.113 回答