我正在做一个需要使用 Genia 语料库的项目。根据文献,Genia Corpus 是通过在 Medline/Pubmed 上搜索 3 个 Mesh 术语:“转录因子”、“血细胞”和“人类”提取的文章制成的。我想从 Pubmed 提取 Genia 语料库中的文章的全文文章(可免费获得)。我尝试了很多方法,但我无法找到以文本或 XML 或 Pdf 格式下载全文的方法。
使用 NCBI 提供的 Entrez 工具:
我试过使用这里提到的方法 - http://www.hpa-bioinformatics.org.uk/bioruby-api/classes/Bio/NCBI/REST/EFetch/Methods.html#M002197
它使用像这样的 Ruby gem Bio 来获取给定 PubMed ID 的信息 - Bio::NCBI::REST::EFetch.pubmed(15496913)
但是,它不会返回 PMID 的全文。
在内部,它会发出这样的调用 - http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=1372388&retmode=text&rettype=medline
但是,Ruby gem 和上述调用都不会返回全文。
在进一步的 Internet 搜索中,我发现 PubMed 的 rettype 和 retmode 允许值没有获取全文的选项,如此处的表中所述 - http://www.ncbi.nlm.nih.gov/书籍/NBK25499/table/chapter4.T._valid_values_of__retmode_and/?report=objectonly
我在网上看到的所有例子和其他脚本都只是提取摘要。作者等,他们都没有讨论提取全文。
这是我发现的另一个链接,它使用 Python 包 Bio,但仅访问有关作者的信息 - https://www.biostars.org/p/172296/
如何使用 NCBI 提供的 Entrez utils 下载文本或 XML 或 Pdf 格式的文章全文?或者是否已经有可用的脚本或网络爬虫可供我使用?