我有一个包含多个 fasta 序列的 txt 文件(我特别愿意将这些序列与基因名称一起解析。请您帮助选择标题中具有特定名称的序列。谢谢
txt 文件中的原始数据。
lcl|NC_045512.2_gene_6 [gene=ORF6] [locus_tag=GU280_gp06] [db_xref=GeneID:43740572] [location=27202..27387] [gbkey=Gene] ATGTTTCATCTCGTTGACTTTCAGGTTACTATAGCAGAGATATTACTAATTATGAGGACTTTTAAAG
在python中解析后的预期数据
ORF6 ATGTTTCATCTCGTTGACTTTCAGGTTACTATAGCAGAGATATTACTAATTATTATGAGGACTTTTAAAG
我用过这个,我能够获得
***from Bio import SeqIO
for record in SeqIO.parse("mytext.txt", 'fasta'):
print(record.name)
print(record.seq)***
得到的结果是这样的。
lcl|NC_045512.2_gene_6 ATGTTTCATCTCGTTGACTTTCAGGTTACTATAGCAGAGATATTACTAATTATTATGAGGACTTTTAAAG