步骤#1:安装BioPython。不要浪费时间重新发明轮子。如果您正在使用 FASTA 文件,您可以编写自己的半功能解析器,或者您可以使用已经存在的解析器,以及教程和所有内容。
步骤#2:嗯,实际上,步骤#1 主要是它。代码:
from Bio import SeqIO
with open("example.fasta") as fp_in, open("newformat.txt", "w") as fp_out:
for record in SeqIO.parse(fp_in, "fasta"):
fp_out.write("{} {}\n".format(record.id, record.seq))
生产
~/coding$ cat newformat.txt
GeneID12345 ATTACATATACCATACCCCATATTAATCCGAGGGTTACCTATAGGTATACC
GeneID12346 TTGATACCATATATCCCATATGCCCTATATTCCTTTACCTATC
更重要的是,您会获得SeqRecord
易于操作的实例,并且可以正确获取可能存储在更复杂示例中的其他信息:
>>> record
SeqRecord(seq=Seq('TTGATACCATATATCCCATATGCCCTATATTCCTTTACCTATC',
SingleLetterAlphabet()), id='GeneID12346', name='GeneID12346',
description='GeneID12346', dbxrefs=[])