我正在尝试使用 Biopython 的Entrez.fetch()
函数通过基因 id (GI) 编号从 NCBI 获取蛋白质序列。
proteina = Entrez.efetch(db="protein", id= gi, rettype="gb", retmode="xml").
然后我使用以下方法读取数据:
proteinaXML = Entrez.read(proteina).
我可以打印结果,但是我不知道如何单独获得蛋白质序列。
显示结果后,我可以手动获取蛋白质。或者 II 使用以下命令检查 XML 树:
proteinaXML[0]["GBSeq_feature-table"][2]["GBFeature_quals"][6]['GBQualifier_value'].
但是,根据提交的蛋白质的 GI,XML 树可能会有所不同。使这个过程难以稳健地自动化。
我的问题:是否可以只检索蛋白质序列,而不是整个 XML 树?或者:鉴于 XML 文件的结构可能因蛋白质而异,我如何从 XML 文件中提取蛋白质序列?
谢谢