3

我正在尝试以 R 语言从 NCBI 或 PubMed 获取与数百个唯一 DOI 或 PMID 相关或附加的数据文件名。例如。我有 PMID:19122651,并且我想获取与其连接的三个 GSE 的名称,它们是:GSE12781、GSE12782 和 GSE12783。我搜索了各种来源和软件包,但无济于事。
感谢您的帮助。

4

2 回答 2

5

您可以使用rentrez包来执行此操作。

所需的功能是entrez_link

例子:

library(rentrez)

results <- entrez_link(dbfrom = 'pubmed', id = 19122651, db = 'gds')

results$links$pubmed_gds
[1] "200012783" "200012782" "200012781"

3 个结果是相关 GEO 数据集记录的 ID。您可以使用 将它们转换为 GSE 加入entrez_summary

这是一个有点丑陋的东西sapply,可以作为函数的基础:

sapply(results$links$pubmed_gds, function (id) entrez_summary("gds", id)$accession, 
       USE.NAMES = FALSE)

[1] "GSE12783" "GSE12782" "GSE12781"
于 2019-03-27T23:58:17.357 回答
1

您可以按照此处rentrez所述通过包查询 NCBI 。函数应该能够找到交叉引用entrez_link()

于 2019-03-27T23:57:32.883 回答