1

有谁知道如何使用 Biopython 或 BioJAVA 从 FTP ncbi 自动搜索和解析 gbk 文件。我在 Biojava 中搜索了实用程序,但没有找到任何实用程序。我也尝试过 BioPython,这是我的代码:

from Bio import Entrez
Entrez.email = "test@yahoo.com"
Entrez.tool = "MyLocalScript"
handle = Entrez.esearch(db="nucleotide", term="Mycobacterium avium[Orgn]")
record = Entrez.read(handle)
print record
print record["Count"]
id_L = record["IdList"]
print id_L
print len(id_L)

但是,只有 3 种鸟分枝杆菌(全基因组序列和完全注释),我得到的结果是 59897。

谁能告诉我如何在 BioJava 或 BioPython 中执行搜索。否则我将不得不从头开始自动化这个过程。

谢谢你。

4

2 回答 2

1

我们这样做的方式是使用 efetch 接口专门指定 id:

Entrez.efetch(db="nucleotide", id=<ACCESSION ID HERE>, rettype="gb", retmode="text")

使用搜索词(例如您使用的搜索词)会返回太多匹配项,而您正在下载所有这些匹配项。在此处使用您的搜索词查看 48 个不同的生物项目:

http://www.ncbi.nlm.nih.gov/bioproject/?term=Mycobacterium+avium

根据经验,获得所需内容的最准确方法是使用 ACCESSION ID。

于 2014-03-16T09:15:35.927 回答
0

如果您想以自动方式在 NCBI 中动态搜索此信息,您可以使用 ESearch 界面按照与 EFetch 相同的方式按名称进行搜索。通过这种方式,您可以获得加入 ID,然后使用此列表通过 EFetch 获取核苷酸信息(或您需要的任何信息)。

http://www.ncbi.nlm.nih.gov/books/NBK25499/#_chapter4_ESearch_

Entrez E-Utilities 非常灵活,尽管您确实需要过滤结果以仅获取您需要的数据。

但是,如果您要对这些数据进行进一步分析,并且您不需要非常了解最新版本的序列,也不需要动态获取不同类型的数据,那么最好您只需从 ftp 下载所需的数据并在本地处理/过滤它。这可能比对 Entrez 执行查询要快(在我看来,这在批量查询时有点慢)。

于 2014-03-22T13:35:41.580 回答