0

我想使用一个基因本体术语来获取 Uniprot 中的相关序列。手动完成很简单,但是,我想使用 python 来实现它。有人对它有想法吗?例如,我有 GO:0070337,然后我想将所有搜索结果下载到一个 fasta 文件中。谢谢!

4

2 回答 2

4

要完全自动化,我建议使用requests

import requests
from StringIO import StringIO  # Python 2
from io import StringIO  # Python 3

params = {"query": "GO:0070337", "format": "fasta"}
response = requests.get("http://www.uniprot.org/uniprot/", params)

for record in SeqIO.parse(StringIO(r.text), "fasta"):
    # Do what you need here with your sequences.
于 2016-04-08T15:24:31.013 回答
1

我会使用 UniProt 提供的其余接口。您只需要根据您的要求构建一个搜索查询 - 即您的 GO 术语、物种和文件格式。

此查询将为您提供尚未以 fasta 格式审查的所有具有 GO 术语的蛋白质结合的人类蛋白质。 http://www.uniprot.org/uniprot/?query=%28go%3A%22protein+binding+%5B0005515%5D%22+AND+organism%3A%22Homo+sapiens+%5B9606%5D%22%29+AND+已审核%3Ano&sort=score&format=fasta

更多详情请访问: http ://www.uniprot.org/faq/28

于 2013-03-20T11:01:56.210 回答