2

我想根据给定的 k-mers 列表扫描 DNA 序列列表;k-mer 列表中的每个元素都是一组相似的等长 k-mer,它们看起来像

myKmer1=c("TATGGGTTT", "TAAGGGTTT", ...,"CAAGGGTTT")

...

myKmer10=c("GGATTCCAG","CCATTCTTT",..., "CGATTCCTT")

哪些软件/ R-script 可用于在每个序列上获得 k-mers 列表的出现——结果应该是一个表格,如下所示:

k-mers出现表1:显示序列中k-mer的计数

myKmer1 myKmer2 ...myKmer10

序列1 2 0 3

序列2 1 3 0

...

序列1000 0 1 0

k-mers出现表2:显示k-mer在序列中的位置

myKmer1 myKmer2 ...myKmer10

seq1 111, 888 0 123,456,3333

seq2 123 111,223,333 0

...

seq1000 0 1234 0

4

1 回答 1

1

如果您正在寻找的 kmers 长度相同,那么您可以使用Jellyfish和 dump 子命令来为您提供长度为 k 的所有 kmers 的计数。然后,您可以解析特定 kmers 的输出。另请参阅Jellyfish 用户指南

于 2014-02-05T05:06:59.237 回答