如果数据是,我应该怎么做才能计算参数中字符出现的百分比
t<-c(UUU,UUC,UUA,UUG,CUU,CUC,CUA,CUG,AUU,AUC,AUA,AUG,GUU,GUC,GUA,GUG,UCU,UCC,UCA,UCG,CCU,CCC,CCA,CCG,ACU,ACC,ACA,ACG,GCU,GCC,GCA,GCG,UAU,UAC,UAA,UAG,CAU,CAC,CAA,CAG,AAU,AAC,AAA,AAG,GAU,GAC,GAA,GAG,UGU,UGC,UGA,UGG,CGU,CGC,CGA,CGG,AGU,AGC,AGA,AGG,GGU,GGC,GGA,GGG)
我想为此创建一个函数,这可能会帮助我将来计算更多问题。
假设我们的论点是——
(UUUUUCUUAUUGCUUCUCCUACUGAUUAUCAUAAUGGUUGUCGUAGUGUCUUCCUCAUCGCCUCCCCCACCGACUACCACAACGGCUGCCGCAGCGUAUUACUAAUAGCAUCACCAACAGAAUAACAAAAAGGAUGACGAAGAGUGUUGCUGAUGGCGUCGCCGACGGAGUAGCAGAAGAGGUGGCGGAGGG)
此外,阅读框将从开头开始,以 3 的数量分开(例如-AUG,GUG)我得到了下面的代码,但我希望我的答案以列表的形式,有两列名为计数和百分比,请帮助我修改此代码以提供所需的百分比。
seqn <- c("UUA","AUC","GUA", "UUA", "GAU", "UUA") #your sequence
l_seq <- length(seqn)
u_seq <- unique(seqn)
seq_long <- "UUUAUGGGCG"
seqn <- unlist(str_extract_all(seq_long, pattern = "[AUGC]{3}"))
colSums(sapply(u_seq, function(s) str_count(string = seqn,pattern = s)))/l_seq
帮助我更正此代码我希望我的论点像 UGCUGCUAUGAAUGAUG 一样连续