4

有没有办法使用 BioPython 将 FASTA 文件转换为 Genbank 格式?关于如何从 Genbank 转换为 FASTA 有很多答案,但反之则不然。

4

1 回答 1

6

在转换之前,您必须将字母分配给序列(DNA 或蛋白质)

from Bio import SeqIO
from Bio.Alphabet import generic_dna, generic_protein

input_handle = open("test.fasta", "rU")
output_handle = open("test.gb", "w")

sequences = list(SeqIO.parse(input_handle, "fasta"))

#asign generic_dna or generic_protein
for seq in sequences:
  seq.seq.alphabet = generic_dna

count = SeqIO.write(sequences, output_handle, "genbank")

output_handle.close()
input_handle.close()
print "Coverted %i records" % count

输入:

>I28Q9A102FII8J 等级=0668881 x=2144.0 y=1105.0 长度=418
ACGTCATGAGAGTTTGATCATGGCTCAGGACGAACGCTGGCGGCGTGCTTAACACATGCAAGTCGAACGATGAA
GCTCCAGCTTGCTGGGGTGGATTAGTGGCGAACGGGTGAGTAACACGTGAGTAACCTGCCCTTGACTCTGGGAT
AAGCGTTGGAAACGACGTCTAATACCGGATATGACGACCGATGGCATCATCTGGTTGTGGAAAGAATTTTGGTC
AAGGATGGACTCGCGGCCTATCAGGTAGTTGGTGAGGTAATGGCTCACCAAGCCTACGACGGGTAGCCGGCCTG
AGAGGGTGACCGGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCAGTGGGGGAAATTGCA
CAATGGGCGAAAGCCTGATGCAGCAACGCCGCGTGAGGGATGACGGCC
>I28Q9A102JMH72 秩=0320459 x=3829.0 y=3120.0 长度=512
ACGTCATGAGAGTTTGATCCTGGCTCAGGATGAACGCTAGCGGCAGGCTTAACACATGCAAGTCGAGGGTAGAA
ATAGCTTGCTATTTTGAGACCGGCGCACGGGTGCGTAACGCGTATGCAATCTGCCTTTTACAGGGGAATAGCCC
AGAGAAATTTGGATTAATGCCCCATAGCGCTGCAGGGCGGCATCGCCGAGCAGCTAAAGTCACAACGGTAAAGA
TGAGCATGCGTCCCATTAGCTAGTTGGTAAGGTAACGGCTTACCAAGGCGATGATGGGTAGGGTCCTGAGAGGG
AGATCCCCCACACTGGTACTGAGACACGGACCAGACTCCTACGGGAGGCAGCAGTGAGGAATATTGGTCAATGG
GCGCAAGCCTGAACCAGCCATGCCGCGTGCAGGATGAAGGCCTTCGGGTTGTAAACTGCTTTTGACGGAACGAA
AAAGCT

你得到:

基因座 I28Q9A102FII8J 418 bp DNA UNK 01-JAN-1980
定义 I28Q9A102FII8J 等级=0668881 x=2144.0 y=1105.0 长度=418
访问 I28Q9A102FII8J
版本 I28Q9A102FII8J
关键词。
资源 。
  有机体。
            .
特点 地点/资格赛
起源
        1 acgtcatgag agtttgatca tggctcagga cgaacgctgg cggcgtgctt aacacatgca
       61 agtcgaacga tgaagctcca gcttgctggg gtggattagt ggcgaacggg tgagtaacac
      121 gtgagtaacc tgcccttgac tctgggataa gcgttggaaa
      第181章
      第241章
      第301章
      第361章
//
基因座 I28Q9A102JMH72 450 bp DNA UNK 01-JAN-1980
定义 I28Q9A102JMH72 秩=0320459 x=3829.0 y=3120.0 长度=512
访问 I28Q9A102JMH72
版本 I28Q9A102JMH72
关键词。
资源 。
  有机体。
            .
特点 地点/资格赛
起源
        1 acgtcatgag agtttgatcc tggctcagga tgaacgctag cggcaggctt aacacatgca
       61 agtcgagggt agaaatagct tgctattttg agaccggcgc acgggtgcgt aacgcgtatg
      第121章
      第181章
      第241章
      第301章
      第361章
      第421章
//
于 2015-05-12T11:38:22.557 回答