4

有谁知道我如何可以轻松下载所有已发表的文章摘要?我正在做一个文本挖掘项目。

在给定 pmid 的情况下,我能找到的最接近的一个可以一次下载一个摘要,但这对于我的目的来说太慢了,因为我必须一次下载一个。

4

5 回答 5

7

您可以通过 FTP 直接从 NLM 获取所有数据。

https://www.nlm.nih.gov/databases/download/terms_and_conditions_pubmed.html

下载并工作,无需担心电子工具。

于 2015-11-23T00:15:27.650 回答
5

搜索"0000/01/01"[PDAT] : "3000/12/31"[PDAT]应该从一开始就为您提供每篇文章。

也许搜索结果上方显示的“发送至”功能可以让您下载所有内容。

或者,您可以编写脚本并使用 NCBI 中的 Entrez 编程实用程序。

您可以使用 ESearch 执行搜索查询,它将返回所有 PMID。然后您可以使用 EFetch 返回所有数据。在本书/手册中有解释: http ://www.ncbi.nlm.nih.gov/books/NBK25501/

第 3 章包含一些示例脚本,可以帮助您入门: http ://www.ncbi.nlm.nih.gov/books/NBK25498/#chapter3

您将获得包含摘要和所有其他数据的 xml 文件。

2500 万个 XML 文件...

于 2015-03-28T20:57:33.497 回答
2

我会使用Europe PMC 提供的 RESTful API。它们允许每个查询以 json 或 xml 格式下载 25 篇文章。有关疟疾的文章的示例查询如下所示:

您可以使用不同格式的搜索查询,这取决于您真正想要检索的内容。

于 2015-03-12T12:29:54.600 回答
0

我知道这已经有点过时了,但是他们有一个用于您完全相同的用例的流程 - 大型采矿项目。

您可以通过免费许可协议获取数据 - 更多信息请点击此处

于 2015-07-24T19:36:52.803 回答
0

从 2021 年起,您可以通过 Huggingface Datasets 的简单 API 访问语料库。

https://huggingface.co/datasets/pubmed

于 2021-11-25T09:51:07.433 回答