0

我尝试过 BioPython SeqIO 和其他解析器,但找不到任何好的工具来解析 DAT 文件。

https://omics.pnl.gov/software/uniprot-dat-file-parser

我试过这个,但他们没有提供任何基因注释

http://biopython.org/wiki/SeqIO

他们主要谈论输入 FASTA 而不是 DAT 文件。

from Bio import SeqIO
   for record in SeqIO.parse("Fasta/f002", "fasta"):
...     print("%s %i" % (record.id, len(record)))
4

2 回答 2

1

这些看起来像 Biopython 所称"swiss"的格式,即在 SwissProt 被称为 UniProt 之前使用的纯文本格式。尝试:

from Bio import SeqIO
   for record in SeqIO.parse("example.dat", "swiss"):
       print("%s %i" % (record.id, len(record)))

另请参阅http://biopython.org/wiki/SeqIO上的格式表

于 2017-08-01T13:48:48.213 回答
0

亲爱的穆罕默德·泽尚,

您可以使用 python 库的查询功能pyuniprot来获取序列(或其他许多东西)

安装(使用 pip 或 git clone)并更新。找出适合您的生物体的分类标识符。此处的示例(人类,小鼠,大鼠)。不要对所有生物进行全面更新(需要很长时间)。

pyuniprot.update(taxids=[9606, 10090, 10116])

使用以下 python 代码解决您的问题:

假设1433E_HUMANA4_HUMAN是感兴趣的标识符:

Python代码:

import pyuniprot
query = pyuniprot.query() 
entries = query.entry(name=('1433E_HUMAN', 'A4_HUMAN'))  
seqs = [x.sequence.sequence for x in entries]
于 2017-08-28T16:30:33.363 回答