“rentrez”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

320 浏览

python-3.x - 是否可以获得一篇文章被引用的次数？

我正在使用 Entrez 搜索 Pubmed 上的文章。是否可以使用 Entrez 来确定使用我的搜索参数找到的每篇文章的引用次数？如果没有，我可以使用其他方法吗？到目前为止，我的谷歌搜索并没有出现太多。

注意：引用次数（在我的上下文中）相关特定文章在其他文章中被引用的次数。

我发现的一件事：https ://gist.github.com/mcfrank/c1ec74df1427278cbe53 这可能表明我可以获得同样在 Pubmed DB 中的文章的引用编号，但我不清楚（对我来说）我是如何可以使用它来确定每篇文章的引用次数。

以下是我目前正在使用的代码（我想包括引用次数的“打印”行）：

2020-05-04T19:50:26.513

0 投票

0 回答

64 浏览

r - 从 R 中的 NCBI 中提取元数据的问题

我正在尝试使用 R 包“rentrez”从 GenBank 中提取一些信息（元数据）以及我在此处找到的示例https://ajrominger.github.io/2018/05/21/gettingDNA.html. 具体来说，对于一组特定的生物，我搜索所有具有地理坐标的记录，然后想要提取有关入藏号、分类单元、测序基因座、国家、纬度和收集日期的数据。作为输出，我想要一个 csv 文件，其中每条记录的数据位于单独的行中。下面的代码似乎可以完成这项工作，但在某些时候，行会被来自不同记录的数据与相邻行重叠。例如，rentrez 从文件中的 NCBI 109 记录中检索到的 157 条记录看起来像我想要实现的，但其余的却一团糟。我将非常感谢有关如何解决此问题的任何建议，因为我是 R 的新手，并且弄清楚每个步骤都需要花费大量时间。

r csv metadata ncbi rentrez

2020-07-02T18:01:25.390

0 投票

0 回答

54 浏览

r - 将rentrez与lapply一起使用-请求过多错误

我正在尝试使用函数 entrez_fetch (rentrez pkg) 从 NCBI 的核苷酸数据库中下载大量 fasta 文件。我正在使用 lapply 发出多个请求，每个请求的起点（retstart）都比最后一个请求高，这样我最终可以获取与我之前的搜索匹配的所有记录：

这给了我这个错误信息：

所以我的问题是 NCBI 对每秒发出的请求数量有限制（他们建议最多 3 个），我无法更改我的代码以满足此要求。我尝试使用 Sys.sleep 如下：

但这也不起作用。我收到与上述相同的错误，但正如您在我的代码中看到的那样，我正在使用网络历史记录。

有一次，我让这段代码最多可以处理 1000 条记录，但它并没有像这里写的那样工作（试图拉 10000 条记录）。这些都只是测试数据，我实际上需要代码以 500 条记录增量处理 390 000 多条记录（电子实用程序文档建议这样做）。

有什么想法吗？我尝试将 Sys.sleep() 提高到 7 秒，但我仍然收到错误消息。

r ncbi rentrez

2020-09-21T00:52:10.277

0 投票

0 回答

102 浏览

r - Rentrez 错误：在文件中找不到摘要结果

我正在使用rentrez 包在NCBI 的核核/核苷酸数据库中搜索Stratiomyidae（有机体）COI（基因）序列。但是，即使我知道它们应该在那里，我也没有找到摘要结果。

这是我的代码：

search_COI 对象显示有 1540 条记录与我的搜索匹配。但是 entrez_summary 函数给了我以下错误：

这非常令人沮丧，因为我对不同的苍蝇科（Acroceridae）使用了完全相同的代码并且有 0 个问题。我尝试过使用 retmax 和 version 参数，但这在这些步骤之后的步骤中给我带来了问题。

r ncbi genbank rentrez

2020-09-21T02:26:57.407

0 投票

0 回答

60 浏览

r - rentrez entrez_summary 过早的 EOF

为了摆脱 RISmed 的麻烦（请参阅RISmed 和大型（ish）数据集的问题），我决定使用rentrez 和 entrez_summary 从查询中检索大量已发布的标题：

好消息...我没有像对待 RISMed 和 EUtilsGet 那样被 NCBI 彻底拒绝。坏消息......它没有完成。（我得到

或者

我几乎认为在查询中使用从属关系搜索字符串是有好处的，因为如果我将查询更改为

它完成了运行，尽管要处理的记录数量大致相同。那么...任何想法为什么特定的搜索字符串会导致 NCBI 服务器出现问题？

r pubmed rentrez

2020-10-29T04:11:43.643

0 投票

1 回答

51 浏览

r - 如何通过提供查询名称列表而不是单个查询名称来使用rentrez 包检索数据？

因此，我尝试使用该rentrez软件包从 GenBank 中检索 DNA 序列数据，并提供物种列表作为输入。我所做的是为我要查询的物种创建一个向量，然后创建一个term我指定要检索的序列数据类型的位置，然后创建一个search检索与我的查询匹配的所有事件，最后我创建data我在 fasta 文件中检索实际序列数据的位置。

基本上我要做的是将每个物种的查询结果连接成一个变量。我开始使用 for 循环，但我认为这种形式没有意义，因为正在查询的每个新物种的数据只是替换data.

对于的某些元素species，将没有要检索的数据，并且 R 显示此错误：

在显示此错误并因此没有该特定物种的数据的情况下，我希望代码继续运行并忽略它。

我的输出将是一个变量data，其中将包括检索的序列数据，来自species.

r rentrez

2021-03-05T15:25:25.913

0 投票

0 回答

19 浏览

xml - 使用rentrez包从NCBI核苷酸结果中提取元信息

我有一个入藏号列表，我需要从中系统地提取相关信息。我发现该rentrez软件包至少可以使用 R 和该rentrez软件包获取此信息。问题是我似乎无法以一种易于提取信息的格式获取数据。entrez_fetch使用以下代码时，该函数应该检索信息并将其解析为 R 数据帧：

但我收到以下错误：Error: XML content does not seem to be XML:

我还尝试使用XML包将数据转换为数据帧：

但我仍然得到同样的错误。有没有人对我如何解决这个问题有任何建议。例如，我想从核苷酸数据库上的特定登录号中提取“菌株”名称。

谢谢！

xml ncbi rentrez

2021-04-23T13:36:48.300

0 投票

0 回答

7 浏览

rentrez - 使用rentrez下载序列

我正在尝试使用rentrez，我想将使用entrez_search 函数得到的内容导出到表或xlsx 或csv。你可以帮帮我吗？非常感谢

rentrez

2021-12-09T19:18:29.897

0 投票

1 回答

97 浏览

html - 使用 R 从 NCBI 基因数据库中获取数据

伦特雷斯包

rentrez根据本手册，我在 Linux（Ubuntu 20.04.2）的实验室计算机上发现了 RStudio（版本 1.1.442）中的包。但是，后来当我想在 Windows 8 Pro (RStudio 2021.09.0) 的笔记本电脑上运行相同的代码时

rentrez即使关闭会话或重新安装软件包，我也无法摆脱此错误

curl::curl_fetch_memory(url, handle = handle) : schannel: next InitializeSecurityContext failed: SEC_E_ILLEGAL_MESSAGE (0x80090326) 中的错误 - 此错误通常发生在收到致命 SSL/TLS 警报时（例如握手失败）。

这是我面临的主要问题。

RS硒包

后来我决定以FASTA 格式修改包含有关基因及其序列的详细信息的页面，修改我以前使用的代码。它使用和包装，结果很完美。rvestrselenium

输出：">NZ_QKKR01000022.1:c3037-151 副霍乱弧菌菌株 2016V-1111 2016V-1111_ori_contig_18，全基因组鸟枪法序列\nGGT...

该代码可以很好地获取有关基因的其他详细信息，例如其登录号、位置、生物体等。

循环处理多个基因 ID

后来我尝试更改代码，以按照我在这里为我的另一个项目得到的解释同时获取多个基因 ID 的相同信息。

...下面有一个续集，但是这里出现了错误，说找不到之前成功使用的同一个xPath。

错误：摘要：NoSuchElement 详细信息：使用给定的搜索参数无法在页面上找到元素。类：org.openqa.selenium.NoSuchElementException 更多细节：运行 errorDetails 方法

我试图删除/a[2]以获取/html/.../pxPath 的末尾，因为它在初始代码中工作，但稍后再次出现错误。

我也试着写代码

只有rvest,
用编写循环for (i in res_id) {}，
引入两个以/html/.../p/a[2]或.../p使用结尾的不同 xPathif () {} else {}

但结果更加令人困惑。

我在处理此类任务时正在学习 R 编码，因此欢迎任何建议和批评。

html r rselenium ncbi rentrez

2021-12-11T18:27:52.713

问题标签 [rentrez]

伦特雷斯包

RS硒包

循环处理多个基因 ID

Reference