“rentrez”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

106 浏览

r - .attrs 和 R 列表中的重复条目

我正在尝试使用此 R 脚本从 NCBI 获取一些信息：

当您打印结果时，您可以看到如下内容：

这个列表中有很多 .attrs 条目，而且它们经常是重复的。还有其他重复的条目，例如：

等等

.attrs 是什么意思，我如何理解这些数据？我不知道如何在一个列表中包含两个同名条目。

r ncbi rentrez

2015-04-08T15:24:17.447

0 投票

1 回答

608 浏览

r - xpathApply：如何传递多个路径或节点？

如果每条记录都有摘要，则效果很好。但是，当 PMID (#23733758) 没有已发布的摘要（或书籍文章或其他内容）时，它会跳过导致错误'names' attribute [5] must be the same length as the vector [4]

问：如何传递多个路径/节点，以便提取期刊文章、书籍或评论？更新：hrbrmstr 解决方案有助于解决 NA。但是，可以xpathApply采取多个节点c(//Abstract, //ReviewArticle , etc etc )吗？

r xpath ncbi rentrez

2015-10-05T16:12:31.140

0 投票

1 回答

196 浏览

r - 以 .csv 格式保存时如何忽略文本段落中的逗号？

我正在尝试使用rentrez包中的不同功能从 NCBI 中提取数据。但是，我有一个问题，因为extract_from_esummary()rentrez 中的函数导致矩阵，其中列的文本在保存在.csv 文件中时被拆分为相邻的列（如图所示），因为“，”被识别为分隔符。

从上面的图像示例中，在 Column PMID: 25979833 中，期刊名称拆分为延伸到下一列。European journal of cancer (Oxford在第 1 列中，然后England : 1990)在下一列中。当我做了一个dput（pubrecord.table）时，我明白分裂是因为单词是用逗号“，”分隔的。如何让 R 理解European journal of cancer (Oxford, England : 1990)属于同一列的内容？Title 和 Pubtype 字段的类似问题......其中长文本之间有一个逗号，而 R 将其打破为 csv 格式。如何清理数据以使数据位于适当的列中？

r regex dataframe gsub rentrez

2015-10-07T17:11:10.180

0 投票

2 回答

383 浏览

r - 按相关性对rentrez中的pubmed搜索进行排序

我正在使用 R 中的rentrez包搜索 PubMed，并希望获得按相关性排序的结果。目前它们按出版日期排序。

r sorting ncbi pubmed rentrez

2016-07-04T10:10:09.653

0 投票

0 回答

1999 浏览

r - 无法在 Windows 上的 R 中使用 RCurl

我已经从这个 weblink安装了 curl 。我的系统路径也使用 curl 安装目录进行了更新，并且可以从命令提示符处进行 curl。我还安装了 RCurl。但是，我的 RStudio 抛出了这个错误：

loadNamespace(name) 中的错误：没有名为“curl”的包</p>

我的代码如下；

我在 Windows 8.1 机器上使用最新的 R 和 RStudio。

r curl rcurl rentrez

2016-09-21T22:44:21.150

0 投票

3 回答

611 浏览

r - 使用rentrez从pubmed中解析出作者和隶属关系

我的总体目标是构建一个共同作者网络图。我有一份 PubMed ID 列表，这些是我对共同作者网络绘图感兴趣的唯一出版物。我不知道如何使用rentrez 在我的查询中同时获取作者姓名和各自的附属机构。我可以得到这两个信息，但我的从属关系列表比我的作者列表少大约 300，所以显然有些人没有提供从属关系，但我不知道是谁。有什么方法可以结合搜索作者和附属机构吗？[当我在我的 entrez_fetch 中进行这两项操作时，它只是分别给了我一个作者和附属机构的列表，所以我仍然无法弄清楚哪个附属机构属于哪个作者。]

这一切都很好，但我无法弄清楚哪些作者与哪些隶属关系，因为它们的长度不同。

任何帮助将不胜感激。谢谢！

r xml author pubmed rentrez

2017-02-22T17:56:37.220

0 投票

1 回答

143 浏览

r - 从for循环将数据存储在数据框中 -rentrez

rentrez我正在尝试使用该软件包查找具有 PubMed 条目的 SNP 列表。当我运行下面的代码时，我最终得到一个 NULL 数据框。我认为我没有正确编写数据框。

我想为大约 100 个基因做这个。

r loops rentrez

2017-04-12T23:45:33.723

0 投票

2 回答

593 浏览

r - 计算R中列表的每个父节点下的xmlchildren数

我正在使用 R 用一长串 PMID 查询 PubMED。因为 entrez_fetch 一次只能做一个特定的数字，所以我将我的 ~2000 个 PMID 分解为一个包含多个向量的列表（每个向量长度约为 500）。当我查询 PubMED 时，我从 XML 文件中提取每个出版物的信息。我最终想要的是这样的：

每个出版物都有一个唯一的 PMID，但每个 PMID 可能有多个出版物类型（如上所示）。我可以从 XML 文件中查询到 PMID 号，并且可以得到每个 PMID 的发布类型。我遇到的问题是重复PMID x 次，以便每个PMID 与其拥有的每种发布类型相关联。如果我的数据没有包含在具有多个子列表的列表中（例如，如果我有 14 个批次，每个批次作为自己的数据框），我可以通过从父 PublicationType 节点获取子节点的数量来执行此操作。但我似乎无法弄清楚如何在列表中执行此操作。

到目前为止，我的代码是这样的：

trial1 是我遇到的问题。这给了我一个列表，在每个批次中，我有一个用于 pub.type 的向量和一个用于 or.pmid 的向量，但它们的长度不同。

我试图弄清楚每个出版物有多少个儿童出版物类型，所以我可以多次重复 PMID。我目前正在使用以下代码，但它不能满足我的要求：

不幸的是，这只是告诉我每个批次的子节点总数，而不是每个出版物（或 pmid）的总数。

r xml xpath pubmed rentrez

2017-05-18T16:38:54.040

0 投票

1 回答

129 浏览

r - 如何使用rentrez跟踪哪个蛋白质ID与哪个基因ID相关联

我有一堆蛋白质 ID，我想在不丢失蛋白质 ID 的情况下获取相应的编码序列 (CDS)。我已经设法下载了相应的 CDS，但不幸的是，CDS ID 与 NCBI 中的蛋白质 ID 非常不同。

我有以下 R 代码：

然后，我使用此命令将蛋白质 ID 与 CDS ID“匹配”：

但是，正如您所见，参数 'by_id=TRUE' 只是列出了三个 elink 对象，但现在我丢失了蛋白质 ID。

我想要类似的东西：

蛋白质 ID XP_012370245.1 XP_004866438.1 XP_013359583.1

CDS ID XM_004866381.2 XM_012514791.1 XM_013504129.1

非常欢迎任何建议，谢谢！！

r bioconductor ncbi rentrez

2017-05-23T21:35:02.007

0 投票

1 回答

122 浏览

r - 使用rentrez检索编码序列时如何保留蛋白质ID

我有一堆蛋白质 ID，我需要检索相应的编码序列 (CDS)。我设法检索了 CDS，但每个序列的名称从 XP* 更改为 XM*，并且我需要为每个序列保留 XP* 标头。

基本上它看起来像这样：

输出如下所示：

有没有办法保留蛋白质 ID（XP_012370245）而不是核苷酸 ID（XM_012514791.1）？就像是：

我已经使用 BioMart R 包 (biomaRt) 完成了此操作，但使用rentrez 似乎更困难。

非常欢迎任何建议，谢谢！

r bioconductor ncbi rentrez

2017-05-25T19:39:46.057

问题标签 [rentrez]

Reference