在从事一个项目时,我需要下载和处理 PubMed 摘要的全文文章,是否有任何实现的代码或工具允许用户输入一组 PubMed id 并下载相同的免费全文文章。非常感谢任何类型的帮助或提示。
2 回答
由于 PubMed 的性质,我认为一般来说这是不可能的。您将要做的最好的事情是从 PubMedCentral 的 Open Access 子集中获取文章。PubMedCentral 有许多在线实用程序来完成这项工作。
StompChicken 指出的实用程序是供发布者在提交给 PMC 之前验证他们的 XML,它们不是下载工具。
请注意,PMC 中的绝大多数文章都不是开放访问 (OA),因此无法通过任何方式自动(合法)下载。NCBI 警告:
- PMC 中的大多数文章都受传统版权限制,不属于该子集。阅读 PMC 版权声明了解更多信息。
- PMC OAI 服务和 PMC FTP 服务是唯一可用于从该开放访问子集中自动下载文章的服务。
- 禁止通过任何其他自动化过程系统检索(批量下载)文章,即使您只是从该子集中检索文章。
- 一些期刊对发表时免费提供的文章使用“开放获取”标签,但仍受传统版权限制。此类文章不属于此子集。
要下载 PMC 内容,最好的方法是使用 PMC Open Access FTP 服务:http ://www.ncbi.nlm.nih.gov/pmc/tools/ftp/
您还可以使用 eutils 查询 PMC 并下载 OA 子集的全文以及其余部分的摘要:http: //eutils.ncbi.nlm.nih.gov/corehtml/query/static/efetchlit_help.html
另一种选择是使用 OAI 服务:http ://www.ncbi.nlm.nih.gov/pmc/tools/oai/
OAI 服务的文档很糟糕,但这里有一些入门技巧:http: //www.biostars.org/p/2076/#13338
如果您想维护和更新 PMC 存储库,请尝试 pubtools:http ://code.google.com/p/pubtools/