我有一个 DNA 序列,如:cgtcgctgtttgtcaaagtcg....
这可能是 1000 多个字母长。
但是,例如,我只想查看字母 5 到 200,并将字符串的这个子集定义为新对象。
我尝试查看该nchar
功能,但没有找到可以做到这一点的东西。
使用子字符串函数:
> tmp.string <- paste(LETTERS, collapse="")
> tmp.string <- substr(tmp.string, 4, 10)
> tmp.string
[1] "DEFGHIJ"
如果您需要处理大型生物序列或序列集,另请参阅 Bioconductor 包Biostrings是一个不错的选择。
#source("http://bioconductor.org/biocLite.R");biocLite("Biostrings")
library(Biostrings)
s <-paste(rep("gtcgctgtttgtcaac",20),collapse="")
d <- DNAString(s)
d[5:200]
as.character(d[5:200])