样本输入:
ACGTTGCATGTCGCATGATGCATGAGAGCT # 这是我们必须搜索的序列
4 # this is the k-mer(integer value)
样本输出:
CATG GCAT
我不明白该怎么做。请帮我。提前致谢。
样本输入:
ACGTTGCATGTCGCATGATGCATGAGAGCT # 这是我们必须搜索的序列
4 # this is the k-mer(integer value)
样本输出:
CATG GCAT
我不明白该怎么做。请帮我。提前致谢。
如果我正确理解您的问题,以下是处理列表的一种方法:
s="ACGTTGCATGTCGCATGATGCATGAGAGCT"
n=4
k=len(s)-2*n
klist = []
for i in range(k):
kmer=s[i:i+n]
if not(kmer in klist) and (kmer in s[i+n:]):
klist.append(kmer)
print klist
除非我误解了,否则您的示例似乎有更多预期的 kmers:
['TGCA', 'GCAT', 'CATG', 'ATGA']
对于n = 5
:
['TGCAT', 'GCATG', 'CATGA']
甚至对于n = 6
:
['TGCATG', 'GCATGA']