所以我有一个包含以下内容的文件:
SequenceName 4.6e-38 810..924
SequenceName_FGS_810..924 VAWNCRQNVFWAPLFQGPYTPARYYYAPEEPKHYQEMKQCFSQTYHGMSFCDGCQIGMCH
SequenceName 1.6e-38 887..992
SequenceName_GYQ_887..992 PLFQGPYTPARYYYAPEEPKHYQEMKQCFSQTYHGMSFCDGCQIGMCH
我希望我的程序只读取包含这些蛋白质序列的行。到目前为止,我得到了这个,它跳过了第一行并阅读了第二行:
handle = open(filename, "r")
handle.readline()
linearr = handle.readline().split()
handle.close()
fnamealpha = fname + ".txt"
handle = open(fnamealpha, "w")
handle.write(">%s\n%s\n" % (linearr[0], linearr[1]))
handle.close()
但它只处理第一个序列,我需要它来处理包含序列的每一行,所以我需要一个循环,我该怎么做?保存到 txt 文件的部分也很重要,所以我需要找到一种方法来结合这两个目标。我上面代码的输出是:
>SequenceName_810..924
VAWNCRQNVFWAPLFQGPYTPARYYYAPEEPKHYQEMKQCFSQTYHGMSFCDGCQIGMCH