python - 将 GenBank 平面文件转换为 FASTA

Question

我需要解析一个初步的 GenBank 平面文件。该序列尚未发布，因此我无法通过加入来查找它并下载FASTA文件。我是生物信息学的新手，所以有人可以告诉我在哪里可以找到一个 BioPerl 或 BioPython 脚本来自己做这个吗？谢谢！

score 0 · Accepted Answer

我在这里为您准备了 Biopython 解决方案。我将首先假设您的 genbank 文件与基因组序列有关，然后我将提供不同的解决方案，假设它是基因序列。确实，知道您正在处理哪些问题会很有帮助。

基因组序列解析：

通过以下方式从文件中解析您的自定义 genbank 平面文件：

from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")

如果您只想要原始序列，那么：

rawSequence = record.seq.tostring()

现在，您可能需要为该序列命名，以便在制作 .fasta 之前为该序列提供“标题”。让我们看看 genbank .gb 文件附带了哪些名称：

nameSequence = record.features[0].qualifiers

这应该返回一个字典，其中包含该 genbank 文件的作者注释的整个序列的各种同义词

基因序列解析：

通过以下方式从文件中解析您的自定义 genbank 平面文件：

from Bio import SeqIO
record = SeqIO.read("yourGenbankFileDirectory/yourGenbankFile.gb","genbank")

要获得基因的原始序列列表/所有基因的列表：

rawSequenceList = [gene.extract(record.seq.tostring()) for gene in record.features]

获取每个基因序列的名称列表（更准确地说是每个基因的同义词词典）

nameSequenceList = [gene.qualifiers for gene in record.features]

score 0 · Accepted Answer

您需要Bio::SeqIO模块来读取或写入生物信息学数据。SeqIO HOWTO应该会告诉您您需要知道的一切，但这里有一个使用 Perl 的小型读取 GenBank 文件脚本来帮助您入门！

2 回答 2