我正在尝试创建遗传特征。我有一个充满 DNA 序列的文本文件。我想从文本文件中读取每一行。然后将 4 个碱基的 4mers 添加到字典中。例如:样本序列
ATGATATATCTATCAT
我要添加的是 ATGA、TGAT、GATA 等。在添加 4mer 时,ID 仅增加 1 的字典。
所以字典会保留...
Genetic signatures, ID
ATGA,1
TGAT, 2
GATA,3
这是我到目前为止...
import sys
def main ():
readingFile = open("signatures.txt", "r")
my_DNA=""
DNAseq = {} #creates dictionary
for char in readingFile:
my_DNA = my_DNA+char
for char in my_DNA:
index = 0
DnaID=1
seq = my_DNA[index:index+4]
if (DNAseq.has_key(seq)): #checks if the key is in the dictionary
index= index +1
else :
DNAseq[seq] = DnaID
index = index+1
DnaID= DnaID+1
readingFile.close()
if __name__ == '__main__':
main()
这是我的输出:
ACTC
ACTC
ACTC
ACTC
ACTC
ACTC
此输出表明它没有遍历字符串中的每个字符......请帮助!