1

我有大约 500 个 fasta 格式的蛋白质序列,我是从 blastp 搜索中获得的。从这些序列中,我需要知道蛋白质名称、生物体、Uniprot ID,如果可能的话,还需要蛋白质家族,这样我就可以用这些信息建立一个表格。

有什么办法可以使用 python 做到这一点吗?一些与 Uniprot 通信的功能?如何解析 fasta 标头中的信息?

4

1 回答 1

5

您应该看一下具有 FASTA 解析器的Biopython 。解析后可以使用pandas DataFrame建表。如果没有示例数据片段,很难提供更详尽的答案,但应该可以使用大约 5 行代码:)

from Bio import SeqIO
with open("example.fasta", "rU") as handle:
    print list(SeqIO.parse(handle, "fasta"))
于 2013-02-13T11:29:18.167 回答