2

我需要解析一个初步的 GenBank 平面文件。该序列尚未发布,因此我无法通过加入来查找它并下载FASTA文件。我是生物信息学的新手,所以有人可以告诉我在哪里可以找到一个 BioPerl 或 BioPython 脚本来自己做这个吗?谢谢!

4

2 回答 2

0

我在这里为您准备了 Biopython 解决方案。我将首先假设您的 genbank 文件与基因组序列有关,然后我将提供不同的解决方案,假设它是基因序列。确实,知道您正在处理哪些问题会很有帮助。

基因组序列解析:

通过以下方式从文件中解析您的自定义 genbank 平面文件:

from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")

如果您只想要原始序列,那么:

rawSequence = record.seq.tostring()

现在,您可能需要为该序列命名,以便在制作 .fasta 之前为该序列提供“标题”。让我们看看 genbank .gb 文件附带了哪些名称:

nameSequence = record.features[0].qualifiers

这应该返回一个字典,其中包含该 genbank 文件的作者注释的整个序列的各种同义词

基因序列解析:

通过以下方式从文件中解析您的自定义 genbank 平面文件:

from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")

要获得基因的原始序列列表/所有基因的列表:

rawSequenceList = [gene.extract(record.seq.tostring()) for gene in record.features]

获取每个基因序列的名称列表(更准确地说是每个基因的同义词词典)

nameSequenceList = [gene.qualifiers for gene in record.features]
于 2013-11-23T16:44:11.313 回答
0

您需要Bio::SeqIO模块来读取或写入生物信息学数据。SeqIO HOWTO应该会告诉您您需要知道的一切,但这里有一个使用 Perl 的小型读取 GenBank 文件脚本来帮助您入门!

于 2011-06-14T10:38:45.650 回答