我可以手动下载一个 FASTA 文件,如下所示:
>lcl|CR543861.1_gene_1...
ATGCTTTGGACA...
>lcl|CR543861.1_gene_2...
GTGCGACTAAAA...
通过单击“发送至”并选择“基因特征”,FASTA Nucleotide 是此页面上唯一的选项(这很好,因为这就是我想要的)。
使用这样的脚本:
#!/usr/bin/env perl
use strict;
use warnings;
use Bio::DB::EUtilities;
my $factory = Bio::DB::EUtilities->new(-eutil => 'efetch',
-db => 'nucleotide',
-id => 'CR543861',
-rettype => 'fasta');
my $file = 'CR543861.fasta';
$factory->get_Response(-file => $file);
我得到一个看起来像这样的文件:
>gi|49529273|emb|CR543861.1| Acinetobacter sp. ADP1 complete genome
GATATTTTATCCACA...
将整个基因组序列集中在一起。如何获取第一个(手动下载的)文件中的信息?
我看了其他几个帖子:
我尝试获取并保存一个 GenBank 文件(因为我得到的 .gb 文件中的每个基因似乎都有单独的序列),但是当我使用 Bio::SeqIO 处理它时,我只会得到一个大序列。