我正在尝试以 R 语言从 NCBI 或 PubMed 获取与数百个唯一 DOI 或 PMID 相关或附加的数据文件名。例如。我有 PMID:19122651,并且我想获取与其连接的三个 GSE 的名称,它们是:GSE12781、GSE12782 和 GSE12783。我搜索了各种来源和软件包,但无济于事。
感谢您的帮助。
问问题
205 次
2 回答
5
您可以使用rentrez包来执行此操作。
所需的功能是entrez_link。
例子:
library(rentrez)
results <- entrez_link(dbfrom = 'pubmed', id = 19122651, db = 'gds')
results$links$pubmed_gds
[1] "200012783" "200012782" "200012781"
3 个结果是相关 GEO 数据集记录的 ID。您可以使用 将它们转换为 GSE 加入entrez_summary
。
这是一个有点丑陋的东西sapply
,可以作为函数的基础:
sapply(results$links$pubmed_gds, function (id) entrez_summary("gds", id)$accession,
USE.NAMES = FALSE)
[1] "GSE12783" "GSE12782" "GSE12781"
于 2019-03-27T23:58:17.357 回答
1
您可以按照此处rentrez
所述通过包查询 NCBI 。函数应该能够找到交叉引用entrez_link()
于 2019-03-27T23:57:32.883 回答