问题标签 [rentrez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - .attrs 和 R 列表中的重复条目
我正在尝试使用此 R 脚本从 NCBI 获取一些信息:
当您打印结果时,您可以看到如下内容:
这个列表中有很多 .attrs 条目,而且它们经常是重复的。还有其他重复的条目,例如:
等等
.attrs 是什么意思,我如何理解这些数据?我不知道如何在一个列表中包含两个同名条目。
r - xpathApply:如何传递多个路径或节点?
如果每条记录都有摘要,则效果很好。但是,当 PMID (#23733758) 没有已发布的摘要(或书籍文章或其他内容)时,它会跳过导致错误'names' attribute [5] must be the same length as the vector [4]
问:如何传递多个路径/节点,以便提取期刊文章、书籍或评论?
更新:hrbrmstr 解决方案有助于解决 NA。但是,可以xpathApply
采取多个节点c(//Abstract, //ReviewArticle , etc etc )
吗?
r - 以 .csv 格式保存时如何忽略文本段落中的逗号?
我正在尝试使用rentrez
包中的不同功能从 NCBI 中提取数据。但是,我有一个问题,因为extract_from_esummary()
rentrez 中的函数导致矩阵,其中列的文本在保存在.csv 文件中时被拆分为相邻的列(如图所示),因为“,”被识别为分隔符。
从上面的图像示例中,在 Column PMID: 25979833 中,期刊名称拆分为延伸到下一列。European journal of cancer (Oxford
在第 1 列中,然后England : 1990)
在下一列中。当我做了一个dput(pubrecord.table)时,我明白分裂是因为单词是用逗号“,”分隔的。如何让 R 理解European journal of cancer (Oxford, England : 1990)
属于同一列的内容?Title 和 Pubtype 字段的类似问题......其中长文本之间有一个逗号,而 R 将其打破为 csv 格式。如何清理数据以使数据位于适当的列中?
r - 按相关性对rentrez中的pubmed搜索进行排序
我正在使用 R 中的rentrez包搜索 PubMed,并希望获得按相关性排序的结果。目前它们按出版日期排序。
r - 无法在 Windows 上的 R 中使用 RCurl
我已经从这个 weblink安装了 curl 。我的系统路径也使用 curl 安装目录进行了更新,并且可以从命令提示符处进行 curl。我还安装了 RCurl。但是,我的 RStudio 抛出了这个错误:
loadNamespace(name) 中的错误:没有名为“curl”的包</p>
我的代码如下;
我在 Windows 8.1 机器上使用最新的 R 和 RStudio。
r - 使用rentrez从pubmed中解析出作者和隶属关系
我的总体目标是构建一个共同作者网络图。我有一份 PubMed ID 列表,这些是我对共同作者网络绘图感兴趣的唯一出版物。我不知道如何使用rentrez 在我的查询中同时获取作者姓名和各自的附属机构。我可以得到这两个信息,但我的从属关系列表比我的作者列表少大约 300,所以显然有些人没有提供从属关系,但我不知道是谁。有什么方法可以结合搜索作者和附属机构吗?[当我在我的 entrez_fetch 中进行这两项操作时,它只是分别给了我一个作者和附属机构的列表,所以我仍然无法弄清楚哪个附属机构属于哪个作者。]
这一切都很好,但我无法弄清楚哪些作者与哪些隶属关系,因为它们的长度不同。
任何帮助将不胜感激。谢谢!
r - 从for循环将数据存储在数据框中 -rentrez
rentrez
我正在尝试使用该软件包查找具有 PubMed 条目的 SNP 列表。当我运行下面的代码时,我最终得到一个 NULL 数据框。我认为我没有正确编写数据框。
我想为大约 100 个基因做这个。
r - 计算R中列表的每个父节点下的xmlchildren数
我正在使用 R 用一长串 PMID 查询 PubMED。因为 entrez_fetch 一次只能做一个特定的数字,所以我将我的 ~2000 个 PMID 分解为一个包含多个向量的列表(每个向量长度约为 500)。当我查询 PubMED 时,我从 XML 文件中提取每个出版物的信息。我最终想要的是这样的:
每个出版物都有一个唯一的 PMID,但每个 PMID 可能有多个出版物类型(如上所示)。我可以从 XML 文件中查询到 PMID 号,并且可以得到每个 PMID 的发布类型。我遇到的问题是重复PMID x 次,以便每个PMID 与其拥有的每种发布类型相关联。如果我的数据没有包含在具有多个子列表的列表中(例如,如果我有 14 个批次,每个批次作为自己的数据框),我可以通过从父 PublicationType 节点获取子节点的数量来执行此操作。但我似乎无法弄清楚如何在列表中执行此操作。
到目前为止,我的代码是这样的:
trial1 是我遇到的问题。这给了我一个列表,在每个批次中,我有一个用于 pub.type 的向量和一个用于 or.pmid 的向量,但它们的长度不同。
我试图弄清楚每个出版物有多少个儿童出版物类型,所以我可以多次重复 PMID。我目前正在使用以下代码,但它不能满足我的要求:
不幸的是,这只是告诉我每个批次的子节点总数,而不是每个出版物(或 pmid)的总数。
r - 如何使用rentrez跟踪哪个蛋白质ID与哪个基因ID相关联
我有一堆蛋白质 ID,我想在不丢失蛋白质 ID 的情况下获取相应的编码序列 (CDS)。我已经设法下载了相应的 CDS,但不幸的是,CDS ID 与 NCBI 中的蛋白质 ID 非常不同。
我有以下 R 代码:
然后,我使用此命令将蛋白质 ID 与 CDS ID“匹配”:
但是,正如您所见,参数 'by_id=TRUE' 只是列出了三个 elink 对象,但现在我丢失了蛋白质 ID。
我想要类似的东西:
蛋白质 ID XP_012370245.1 XP_004866438.1 XP_013359583.1
CDS ID XM_004866381.2 XM_012514791.1 XM_013504129.1
非常欢迎任何建议,谢谢!!
r - 使用rentrez检索编码序列时如何保留蛋白质ID
我有一堆蛋白质 ID,我需要检索相应的编码序列 (CDS)。我设法检索了 CDS,但每个序列的名称从 XP* 更改为 XM*,并且我需要为每个序列保留 XP* 标头。
基本上它看起来像这样:
输出如下所示:
有没有办法保留蛋白质 ID(XP_012370245)而不是核苷酸 ID(XM_012514791.1)?就像是:
我已经使用 BioMart R 包 (biomaRt) 完成了此操作,但使用rentrez 似乎更困难。
非常欢迎任何建议,谢谢!