我有 ~ 5 个非常大的向量(~ 108 MM 条目),所以我在 R 中用它们做的任何情节/东西都需要很长时间。
我正在尝试可视化它们的分布(直方图),并且想知道在不花费太长时间的情况下将它们的直方图分布叠加在 R 中的最佳方法是什么。我正在考虑首先将分布拟合到直方图,然后将所有分布线绘制在一个图中。
你对如何做到这一点有一些建议吗?
假设我的向量是:
x1, x2, x3, x4, x5.
我正在尝试使用此代码:Overlaying histograms with ggplot2 in R
我用于 3 个向量的代码示例(R 无法绘制):
n = length(x1)
dat <- data.frame(xx = c(x1, x2, x3),yy = rep(letters[1:3],each = n))
ggplot(dat,aes(x=xx)) +
geom_histogram(data=subset(dat,yy == 'a'),fill = "red", alpha = 0.2) +
geom_histogram(data=subset(dat,yy == 'b'),fill = "blue", alpha = 0.2) +
geom_histogram(data=subset(dat,yy == 'c'),fill = "green", alpha = 0.2)
但是制作情节需要很长时间,最终它把我踢出了 R。关于如何有效地将 ggplot2 用于大型向量的任何想法?在我看来,我必须创建一个包含 5*108MM 条目的数据框,然后进行绘图,在我的情况下效率非常低。
谢谢!