问题标签 [ncbi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用蛋白质的基因标识符检索 DNA 序列
我使用 Biopython 尝试检索与我有 GI(71743840)的蛋白质对应的 DNA 序列,从 NCBI 页面这很容易,我只需要查找 refseq。我的问题是在使用 ncbi 获取实用程序在 python 中编码时出现,我找不到一种方法来检索任何可以帮助我进入 DNA 的字段。
seq_record.features 中有很多信息,但必须有一种更简单明了的方法来做到这一点,任何帮助将不胜感激。谢谢!
python - 从 Python Entrez 字典中返回值
我想从 Entrez Gene 页面中抓取 Interactions 表。
Interactions 表是从 Web 服务器填充的,当我尝试在 R 中使用 XML 包时,我可以获得 Entrez 基因页面,但 Interactions 表体是空的(它没有被 Web 服务器填充)。
在 R 中处理 web 服务器问题可能是可以解决的(我很想看看如何),但 Biopython 似乎是一条更简单的道路。
我将以下内容放在一起,这为我提供了我想要的示例基因:
这段代码有效,给了我想要的东西。但我认为它很难看,并且担心如果 Entrez 基因页面的格式稍有变化,它会破坏代码。特别是,必须有一种比指定完整路径更好的方法来提取所需信息,就像我所做的那样:
但是我无法弄清楚如何在不指定要下降的每个级别的情况下搜索字典字典。当我尝试 find() 之类的函数时,它们会在下一层运行,但不会一直运行到底部。
是否有通配符、Python 等效的“//”,或者我可以用来在不命名完整路径的情况下访问 ['Object-id_id'] 的函数?其他关于更简洁代码的建议也值得赞赏。
blast - 教程:Blast+ 结果文件解析为 fasta 文件
我是这个论坛的新手,也是计算分析的新手,我第一次使用独立的 NCBI Blast+ (blastp),我的结果文件格式如下:
查询= Y
长度=6
主题= X
长度=739
分数 = 15.4 位 (28),期望 = 0.044,方法:基于组合的统计。同一性 = 5/6 (83%),正数 = 6/6 (100%),差距 = 0/6 (0%)
查询 1 DDDIPF 6 D+DIPF Sbjct 244 DNDIPF 250
但我想对所有命中进行多次比对,为此,我需要以以下禁食格式提取序列:
主题= X
第 244 章
是否有任何工具有助于从爆炸结果文件或工具/教程中直接进行多重比对以提取 fasta 格式的序列以进一步处理。谢谢。
biopython - 通过 Biopython NCBIWWW 爆炸。在哪里可以找到完整的数据库列表?
我正在使用模块 Biopython 模块 NCBIWWW 在线爆破一些序列。我想将我的序列与可用的不同数据库进行对比,但是我找不到它们的完整列表。
这是一个使用“blastn”算法对核苷酸集合数据库进行简单查询的示例。
如您所见,数据库 Nucleotide 集合被指定为“nt”。例如,如果我想查询 Human GRCh37/hg19 数据库,我应该用什么替换“nt”?如果我想查询其他物种/构建?是否有任何完整的列表可供我在http://blast.ncbi.nlm.nih.gov找到所有可用数据库的简称?
谢谢!
r - .attrs 和 R 列表中的重复条目
我正在尝试使用此 R 脚本从 NCBI 获取一些信息:
当您打印结果时,您可以看到如下内容:
这个列表中有很多 .attrs 条目,而且它们经常是重复的。还有其他重复的条目,例如:
等等
.attrs 是什么意思,我如何理解这些数据?我不知道如何在一个列表中包含两个同名条目。
php - 麻烦将几个 XML 结果迭代解析为 PHP
我正在尝试编写一个 PHP 脚本以利用 NCBI(国家生物技术信息中心)的 E-utilities 服务。
我可以提供一个带有搜索词的 url(在本例中为“alaS”)并毫无问题地检索 XML 结果,代码如下:
这工作正常(结果可以在http://djcamenares.x10.mx/testing/parse1.php
但是,当我尝试获取结果链接并让脚本检索其结果时,我什么也得不到。这是以下代码:
可在http://djcamenares.x10.mx/testing/parse3.php 获得
有什么建议么?也许我应该以更好的方式来构建我的整体程序?我需要将变量/结果来回传递给该实用程序服务器 3 次(一次搜索基因 ID,然后将每个基因 ID 与蛋白质 ID 链接,最后检索蛋白质序列)。
感谢您的帮助;对不起,如果这个问题是多余的或已经回答;我对 PHP 比较陌生。
r - xpathApply:如何传递多个路径或节点?
如果每条记录都有摘要,则效果很好。但是,当 PMID (#23733758) 没有已发布的摘要(或书籍文章或其他内容)时,它会跳过导致错误'names' attribute [5] must be the same length as the vector [4]
问:如何传递多个路径/节点,以便提取期刊文章、书籍或评论?
更新:hrbrmstr 解决方案有助于解决 NA。但是,可以xpathApply
采取多个节点c(//Abstract, //ReviewArticle , etc etc )
吗?
ftp - Pubmed DataSet - 用 Flume 连接 FTP
为了从 Pubmed DataSet [ncbi] 中检索数据,我使用 FireFTP 插件(在 firefox 中)检索 xml、pdf、txt 内容。[ http://www.ncbi.nlm.nih.gov/pmc/tools/ftp/] 我已经成功安装了 Apache Flume。
主要目标是——我需要将 FTP 与 Flume 连接并将最终结果数据集存储在 Cassandra 中。
谁能帮助我如何将 FTP 源与 Flume 连接。
非常感谢你。
xml - 如何访问 XML 文件中不同名称的子节点(子节点)的值?
我正在尝试xmlValue
从 NCBI xml 文件中解析某些子节点。但是,对于某些 PM.ID,Root node <PubmedArticleSet>
具有不同的信息 wrt 已发布记录,PubmedBookArticle
并且PubmedArticle
. 我想传递一个条件,if(xmlName(fetch.pubmed) == PubmedBookArticle
提取某些值elseif (xmlName(fetch.pubmed) == PubmedArticle
提取其他值。最后,使用dataframe
与它们的 PMID 对应的两个值制作 a。看起来很简单,但(xmlName(fetch.pubmed)
会抛出错误no applicable method for 'xmlName' applied to an object of class "c('XMLInternalDocument', 'XMLAbstractDocument')"
任何帮助表示赞赏,谢谢
我的代码如下
如何在循环中获取上述代码,以便在每次搜索中满足条件时检索 PubmedArticle 和 PubmedBookArticle 中的值?
ncbi - 如何从 pubmed 数据 ncbi 下载所有抽象数据
我想下载所有已发布的数据摘要。有谁知道我如何可以轻松下载所有已发表的文章摘要?
我得到了数据的来源:ftp: //ftp.ncbi.nlm.nih.gov/pub/pmc/af/12/
无论如何要下载所有这些tar文件..
提前致谢。