我有一系列数据表明某种类型的 DNA 元素在多久以前在基因组中是活跃的。它可能看起来像这样:
data.df <- data.frame(name=c("type1", "type1", "type1", "type2", "type2", "type2"),
active=c(9,11,10,21,21,18))
因此,大约 10 年前存在三个活跃的“1 型”元素和 20 年前活跃的三个 2 型元素。
我使用 ggplot2 创建了一个堆叠密度图,以获取每个元素何时处于活动状态的分布,如下所示:
ggplot(data.df, aes(x=active)) + geom_density(position="stack", aes(fill=name))
我有这些元素的相对丰度的信息,我想将每个元素密度的高度乘以该数字。这最终会给我这些元素在基因组中的实际活动丰度,而不仅仅是它们活动的分布。
所以我的问题归结为:如何根据组将每个元素类型的密度的高度转换/乘以某个因子?例如,如果我在基因组中有 1000 个 1 型元素,而只有 3 个 2 型元素,那么堆积密度图将由 1 型主导,您几乎看不到与 2 型相关的曲线。
我希望这是有道理的。提前致谢!