这与另一个问题有关:绘制加权频率矩阵。
我有这个图形(由下面的 R 代码生成):
#Set the number of bets and number of trials and % lines
numbet <- 36
numtri <- 1000
#Fill a matrix where the rows are the cumulative bets and the columns are the trials
xcum <- matrix(NA, nrow=numbet, ncol=numtri)
for (i in 1:numtri) {
x <- sample(c(0,1), numbet, prob=c(5/6,1/6), replace = TRUE)
xcum[,i] <- cumsum(x)/(1:numbet)
}
#Plot the trials as transparent lines so you can see the build up
matplot(xcum, type="l", xlab="Number of Trials", ylab="Relative Frequency", main="", col=rgb(0.01, 0.01, 0.01, 0.02), las=1)
我非常喜欢这个情节的构建方式,并且将更频繁的路径显示为比罕见的路径更暗(但对于打印演示来说还不够清晰)。我想做的是为数字生成某种 hexbin 或热图。仔细想想,似乎情节必须包含不同大小的垃圾箱(见我的信封草图背面):
那么我的问题是:如果我使用上面的代码模拟一百万次运行,我如何将其呈现为热图或 hexbin,以及草图中显示的不同大小的 bin?
澄清一下:我不想依靠透明度来表明通过情节的一部分进行审判的罕见性。相反,我想用热来表示稀有性,并用热(红色)表示一个共同的途径,用冷(蓝色)表示一个罕见的途径。另外,我不认为垃圾箱应该是相同的大小,因为第一个试验只有两个可以放置路径的地方,但最后一个有更多。因此,基于这一事实,我选择了一个不断变化的 bin 比例。本质上,我正在计算路径通过单元格的次数(第 1 列中的 2 次,第 2 列中的 3 次等),然后根据通过的次数为单元格着色。
更新:我已经有一个类似于@Andrie 的情节,但我不确定它是否比上面的情节清晰得多。我不喜欢这张图的不连续性(以及为什么我想要某种热图)。我认为因为第一列只有两个可能的值,所以它们之间不应该有巨大的视觉差距等等。因此我设想了不同大小的垃圾箱。我仍然觉得分箱版本会更好地显示大量样本。
更新:本网站概述了绘制热图的过程:
为了创建密度(热图)绘图版本,我们必须有效地枚举这些点在图像中每个离散位置的出现。这是通过建立一个网格并计算点坐标“落入”该网格中每个位置的每个单独像素“箱”的次数来完成的。
也许该网站上的一些信息可以与我们已经拥有的信息相结合?
更新:我拿了安德烈写的一些关于这个问题的内容来得出这个结论,这与我的设想非常接近:
numbet <- 20
numtri <- 100
prob=1/6
#Fill a matrix
xcum <- matrix(NA, nrow=numtri, ncol=numbet+1)
for (i in 1:numtri) {
x <- sample(c(0,1), numbet, prob=c(prob, 1-prob), replace = TRUE)
xcum[i, ] <- c(i, cumsum(x)/cumsum(1:numbet))
}
colnames(xcum) <- c("trial", paste("bet", 1:numbet, sep=""))
mxcum <- reshape(data.frame(xcum), varying=1+1:numbet,
idvar="trial", v.names="outcome", direction="long", timevar="bet")
#from the other question
require(MASS)
dens <- kde2d(mxcum$bet, mxcum$outcome)
filled.contour(dens)
我不太明白发生了什么,但这似乎更像我想要生产的(显然没有不同大小的垃圾箱)。
更新:这与此处的其他图类似。这不太对:
plot(hexbin(x=mxcum$bet, y=mxcum$outcome))
最后一次尝试。如上:
image(mxcum$bet, mxcum$outcome)
这很不错。我只想让它看起来像我的手绘草图。