我进行了小RNA测序并尝试分析结果fastq文件。
首先,我使用 ShortRead 包将 fastq 文件导入 R 并转换为 DNAstringSet
reads <- readFastq("test.fq")
seq <- sread(reads)
为了查找包含特定序列字符串的读取,我使用了来自 Biostrings 库的 vcountPattern。为了我的分析目的,我必须允许突变和插入缺失。
hit <-vcountPattern("TCTGCATTTAAGGCAAGTT", seq, max.mismatch=5, with.indels=TRUE)
我可以从这里做的是计算包含“TCTGCATTTAAGGCAAGTT”的读取次数
sum (hit)
它返回
[1] 11500
所以有 11500 个包含“TCTGCATTTAAGGCAAGTT”的序列读取
但最重要的是,我想要的是从 fastq 文件中提取对应于 11500 读取的实际序列。
我怎样才能做到这一点?
hit
如果我只是这样做,它会给出一堆“0”,少量的“1”,很少的“2”。所以我相信这基本上是一个与每次读取的命中数相对应的向量。
我尝试使用此信息提取序列信息,但无法实现。
任何帮助表示赞赏!