让我快速解释一下这个问题。像这样画一个数据集
data<- data.frame("Amino.acid" = c("TRPPS;PNSTED", "ERDDS", "PSRND", "SDEEN", "GSRTN"),
"log2.ratio"=c(2.4,0,-1,-2,-1))
实际上,我的列表要长得多,比如说 12000 行。我真正想做的是获得特定氨基酸模式的频率,然后绘制密度与 log2ratio 的关系。因此,例如应该在氨基酸列中检测到模式 RXXS,有时序列用“;”分隔。并且应该对两者进行模式分析。
对于很多 log2 比率,我可以考虑一些丑陋的东西,比如 gsub 和子集函数,但应该有一个优雅的解决方案。(也许与密度函数??)
最后,我想为特定模式和除此特定氨基酸序列模式之外的所有其他模式的密度 (y) 与 log2raito (x) 绘制图表。