我只需要从 NCBI(GenBank(完整)格式)下载完整的基因组序列。我对“完整基因组”而不是“全基因组”感兴趣。
我的脚本:
from Bio import Entrez
Entrez.email = "asiakXX@wp.pl"
gatunek='Escherichia[ORGN]'
handle = Entrez.esearch(db='nucleotide',
term=gatunek, property='complete genome' )#title='complete genome[title]')
result = Entrez.read(handle)
结果,我只得到了基因组的小片段,大小约为 484 bp:
LOCUS NZ_KE350773 484 bp DNA linear CON 23-AUG-2013
DEFINITION Escherichia coli E1777 genomic scaffold scaffold9_G, whole genome
shotgun sequence.
我知道如何通过 NCBI 网站手动执行此操作,但这非常耗时,我在那里使用的查询:
escherichia[orgn] AND complete genome[title]
结果我得到了多个基因组,大小范围约为 5,154,862 bp,这就是我需要通过 ENTREZ.esearch 做的事情。