问题标签 [rentrez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 是否可以获得一篇文章被引用的次数?
我正在使用 Entrez 搜索 Pubmed 上的文章。是否可以使用 Entrez 来确定使用我的搜索参数找到的每篇文章的引用次数?如果没有,我可以使用其他方法吗?到目前为止,我的谷歌搜索并没有出现太多。
注意:引用次数(在我的上下文中)相关特定文章在其他文章中被引用的次数。
我发现的一件事:https ://gist.github.com/mcfrank/c1ec74df1427278cbe53 这可能表明我可以获得同样在 Pubmed DB 中的文章的引用编号,但我不清楚(对我来说)我是如何可以使用它来确定每篇文章的引用次数。
以下是我目前正在使用的代码(我想包括引用次数的“打印”行):
r - 从 R 中的 NCBI 中提取元数据的问题
我正在尝试使用 R 包“rentrez”从 GenBank 中提取一些信息(元数据)以及我在此处找到的示例https://ajrominger.github.io/2018/05/21/gettingDNA.html. 具体来说,对于一组特定的生物,我搜索所有具有地理坐标的记录,然后想要提取有关入藏号、分类单元、测序基因座、国家、纬度和收集日期的数据。作为输出,我想要一个 csv 文件,其中每条记录的数据位于单独的行中。下面的代码似乎可以完成这项工作,但在某些时候,行会被来自不同记录的数据与相邻行重叠。例如,rentrez 从文件中的 NCBI 109 记录中检索到的 157 条记录看起来像我想要实现的,但其余的却一团糟。我将非常感谢有关如何解决此问题的任何建议,因为我是 R 的新手,并且弄清楚每个步骤都需要花费大量时间。
r - 将rentrez与lapply一起使用-请求过多错误
我正在尝试使用函数 entrez_fetch (rentrez pkg) 从 NCBI 的核苷酸数据库中下载大量 fasta 文件。我正在使用 lapply 发出多个请求,每个请求的起点(retstart)都比最后一个请求高,这样我最终可以获取与我之前的搜索匹配的所有记录:
这给了我这个错误信息:
所以我的问题是 NCBI 对每秒发出的请求数量有限制(他们建议最多 3 个),我无法更改我的代码以满足此要求。我尝试使用 Sys.sleep 如下:
但这也不起作用。我收到与上述相同的错误,但正如您在我的代码中看到的那样,我正在使用网络历史记录。
有一次,我让这段代码最多可以处理 1000 条记录,但它并没有像这里写的那样工作(试图拉 10000 条记录)。这些都只是测试数据,我实际上需要代码以 500 条记录增量处理 390 000 多条记录(电子实用程序文档建议这样做)。
有什么想法吗?我尝试将 Sys.sleep() 提高到 7 秒,但我仍然收到错误消息。
r - Rentrez 错误:在文件中找不到摘要结果
我正在使用rentrez 包在NCBI 的核核/核苷酸数据库中搜索Stratiomyidae(有机体)COI(基因)序列。但是,即使我知道它们应该在那里,我也没有找到摘要结果。
这是我的代码:
search_COI 对象显示有 1540 条记录与我的搜索匹配。但是 entrez_summary 函数给了我以下错误:
这非常令人沮丧,因为我对不同的苍蝇科(Acroceridae)使用了完全相同的代码并且有 0 个问题。我尝试过使用 retmax 和 version 参数,但这在这些步骤之后的步骤中给我带来了问题。
r - rentrez entrez_summary 过早的 EOF
为了摆脱 RISmed 的麻烦(请参阅RISmed 和大型(ish)数据集的问题),我决定使用rentrez 和 entrez_summary 从查询中检索大量已发布的标题:
好消息...我没有像对待 RISMed 和 EUtilsGet 那样被 NCBI 彻底拒绝。坏消息......它没有完成。(我得到
或者
我几乎认为在查询中使用从属关系搜索字符串是有好处的,因为如果我将查询更改为
它完成了运行,尽管要处理的记录数量大致相同。那么...任何想法为什么特定的搜索字符串会导致 NCBI 服务器出现问题?
r - 如何通过提供查询名称列表而不是单个查询名称来使用rentrez 包检索数据?
因此,我尝试使用该rentrez
软件包从 GenBank 中检索 DNA 序列数据,并提供物种列表作为输入。我所做的是为我要查询的物种创建一个向量,然后创建一个term
我指定要检索的序列数据类型的位置,然后创建一个search
检索与我的查询匹配的所有事件,最后我创建data
我在 fasta 文件中检索实际序列数据的位置。
基本上我要做的是将每个物种的查询结果连接成一个变量。我开始使用 for 循环,但我认为这种形式没有意义,因为正在查询的每个新物种的数据只是替换data
.
对于 的某些元素species
,将没有要检索的数据,并且 R 显示此错误:
在显示此错误并因此没有该特定物种的数据的情况下,我希望代码继续运行并忽略它。
我的输出将是一个变量data
,其中将包括检索的序列数据,来自species
.
xml - 使用rentrez包从NCBI核苷酸结果中提取元信息
我有一个入藏号列表,我需要从中系统地提取相关信息。我发现该rentrez
软件包至少可以使用 R 和该rentrez
软件包获取此信息。问题是我似乎无法以一种易于提取信息的格式获取数据。entrez_fetch
使用以下代码时,该函数应该检索信息并将其解析为 R 数据帧:
但我收到以下错误:Error: XML content does not seem to be XML:
我还尝试使用XML
包将数据转换为数据帧:
但我仍然得到同样的错误。有没有人对我如何解决这个问题有任何建议。例如,我想从核苷酸数据库上的特定登录号中提取“菌株”名称。
谢谢!
rentrez - 使用rentrez下载序列
我正在尝试使用rentrez,我想将使用entrez_search 函数得到的内容导出到表或xlsx 或csv。你可以帮帮我吗 ?非常感谢
html - 使用 R 从 NCBI 基因数据库中获取数据
伦特雷斯包
rentrez
根据本手册,我在 Linux(Ubuntu 20.04.2)的实验室计算机上发现了 RStudio(版本 1.1.442)中的包。但是,后来当我想在 Windows 8 Pro (RStudio 2021.09.0) 的笔记本电脑上运行相同的代码时
rentrez
即使关闭会话或重新安装软件包,我也无法摆脱此错误
curl::curl_fetch_memory(url, handle = handle) : schannel: next InitializeSecurityContext failed: SEC_E_ILLEGAL_MESSAGE (0x80090326) 中的错误 - 此错误通常发生在收到致命 SSL/TLS 警报时(例如握手失败)。
这是我面临的主要问题。
RS硒包
后来我决定以FASTA 格式修改包含有关基因及其序列的详细信息的页面,修改我以前使用的代码。它使用和包装,结果很完美。rvest
rselenium
输出:">NZ_QKKR01000022.1:c3037-151 副霍乱弧菌菌株 2016V-1111 2016V-1111_ori_contig_18,全基因组鸟枪法序列\nGGT...
该代码可以很好地获取有关基因的其他详细信息,例如其登录号、位置、生物体等。
循环处理多个基因 ID
后来我尝试更改代码,以按照我在这里为我的另一个项目得到的解释同时获取多个基因 ID 的相同信息。
...下面有一个续集,但是这里出现了错误,说找不到之前成功使用的同一个xPath。
错误:摘要:NoSuchElement 详细信息:使用给定的搜索参数无法在页面上找到元素。类:org.openqa.selenium.NoSuchElementException 更多细节:运行 errorDetails 方法
我试图删除/a[2]
以获取/html/.../p
xPath 的末尾,因为它在初始代码中工作,但稍后再次出现错误。
我也试着写代码
- 只有
rvest
, - 用 编写循环
for (i in res_id) {}
, - 引入两个以
/html/.../p/a[2]
或.../p
使用结尾的不同 xPathif () {} else {}
但结果更加令人困惑。
我在处理此类任务时正在学习 R 编码,因此欢迎任何建议和批评。