问题标签 [ncbi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
911 浏览

ftp - 为什么连接NCBI的FTP服务器主页时rsync不起作用?

我目前正在尝试更新一些工作中的代码。我之前使用最新版本的 Python 创建了一个脚本,该脚本在 NCBI 的 FTP 网站 ( ftp://ftp.ncbi.nlm.nih.gov/ ) 上记录用户路径选择。该日志用于使用更新的文件更新我的文件系统(我相信 NCBI 每周更新他们的文件)。我基本上重新创建了轮子。我现在想使用 rsync,但我似乎无法得到我想要的东西......

上面的脚本应该转到 NCBI 的网站并开始下载目录。相反,它会向 shell 打印 NCBI 主目录中的文件夹列表,然后终止而不复制任何内容。

这是输出的样子:

每当我使用

(基本上,如果我在 NCBI 的 FTP 主页中包含任何目录)一切似乎都正常。

我应该在这里做什么?什么是问题/解决方案?

0 投票
0 回答
65 浏览

oracle - 展平递归分类表 (Oracle)

我对 Oracle 很陌生,对分类数据完全陌生,所以请多多包涵……

我有一个大数据表,如下所示:

tax_id列通常指定物种,但有时它更通用,例如指定分类树中的属、目或更高级别。

我想通过聚合value不同分类级别的列来计算汇总统计信息。为此,我需要加入额外的分类信息,因此我从NCBI分类数据库下载了该ncbi_nodes表的副本。这个表很大(大约 150 万行),看起来像这样:

rank列采用从 0 到 28 的整数值,并指定每个tax_id. 较低的等级指定更详细的分类级别(例如等级 4 是物种,等级 8 是属等),除了等级=0,它对应于“无等级/未定义”。

该表具有递归/分层结构,我不确定如何最好地使用它来聚合我的数据。我最初的想法是尝试“展平”它,使排名显示为列,如下所示:

然后,我可以将此输出连接到我的原始数据,并通过GROUP BY在任何rank列上使用来计算汇总统计信息。

我的问题:

请问如何将递归表结构“展平”为上述结构?

我一直在阅读有关递归查询和 CTE 的文章,但我对 Oracle(和 SQL)还很陌生,所以我不确定这是否真的是我想要的。特别是,不同tax_ids的具有不同的等级信息是否重要(即并非所有分类单元都有所有 29 个等级的条目,如上例所示)?

任何 SQL 提示都将不胜感激,甚至知道递归查询是正确还是错误的事情都会非常有帮助!

谢谢!

0 投票
1 回答
1782 浏览

python - 我如何从出租车中获得分类等级名称?

这个问题与: 如何从taxid中获取王国、门、类、目、科、属和种的分类特定ID?

那里给出的解决方案有效,但我想为定义的等级定义每个分类 ID 的名称。我在 ete3 上发现了这个可以完成这项工作:

但不是 python 程序员,我没有将它合并到上面链接中给出的代码中。这是我尝试过的:

非常感谢您提供的任何帮助。

0 投票
1 回答
129 浏览

r - 如何使用rentrez跟踪哪个蛋白质ID与哪个基因ID相关联

我有一堆蛋白质 ID,我想在不丢失蛋白质 ID 的情况下获取相应的编码序列 (CDS)。我已经设法下载了相应的 CDS,但不幸的是,CDS ID 与 NCBI 中的蛋白质 ID 非常不同。

我有以下 R 代码:

然后,我使用此命令将蛋白质 ID 与 CDS ID“匹配”:

但是,正如您所见,参数 'by_id=TRUE' 只是列出了三个 elink 对象,但现在我丢失了蛋白质 ID。

我想要类似的东西:

蛋白质 ID XP_012370245.1 XP_004866438.1 XP_013359583.1

CDS ID XM_004866381.2 XM_012514791.1 XM_013504129.1

非常欢迎任何建议,谢谢!!

0 投票
1 回答
122 浏览

r - 使用rentrez检索编码序列时如何保留蛋白质ID

我有一堆蛋白质 ID,我需要检索相应的编码序列 (CDS)。我设法检索了 CDS,但每个序列的名称从 XP* 更改为 XM*,并且我需要为每个序列保留 XP* 标头。

基本上它看起来像这样:

输出如下所示:

有没有办法保留蛋白质 ID(XP_012370245)而不是核苷酸 ID(XM_012514791.1)?就像是:

我已经使用 BioMart R 包 (biomaRt) 完成了此操作,但使用rentrez 似乎更困难。

非常欢迎任何建议,谢谢!

0 投票
2 回答
451 浏览

python - Biopython NCBI/Entrez 总结输出和 R 包输出的区别

我是通过 Biopython 和几个 R 包(rentrez 和 reutil)访问 Entrez 的新手。使用 esummary 访问“nuccore”数据库时,Biopython 返回的输出字段与 R 包返回的输出字段不同。

Python:

Biopython 返回的字段是:

['AccessionVersion','Caption','Comment','CreateDate','Extra','Flags','Gi','Id','Item','Length','ReplacedBy','Status',' TaxId','Title','UpdateDate']

R(reutil包):

而 R 包 reutil 和rentrez 返回的字段是: 31 项的摘要结果:

['uid', 'caption', 'title', 'extra', 'gi', 'createdate', 'updatedate', 'flags', 'taxid', 'slen', 'biomol', 'moltype', '拓扑','sourcedb','segsetsize','projectid','genome','subtype','subname','assemblygi','assemblyacc','tech','completeness','geneticcode','strand' , '有机体', '菌株', '生物样本', '统计', '属性', 'oslt']

提前致谢。

0 投票
1 回答
103 浏览

r - 使用循环将多个 GSM 文件加载到 R 中?

我正在尝试通过循环将多个 GSM 文件加载到 R 中,但我认为我遗漏了一些明显的东西。

0 投票
1 回答
6371 浏览

perl - Taxid2wgs.pl:未定义符号:Perl_xs_handshake

我试图运行用于搜索 WGS 分类子集的Perl 脚本 ( taxid2wgs.pl )。

Taxid2wgs.pl(可在ftp://ftp.ncbi.nlm.nih.gov/blast/WGS_TOOLS获得)。

在这里,2是细菌的出租车。taxid2wgs.pl将生成别名文件“ bacteria-wgs.nvl ”。

但是我在下面收到一条错误消息。

我接下来要做的是安装 LWP perl 模块(libwww-perl-6.05)。

在发布之前,我尝试了另一种解决方案。

为了克服这个问题,我使用 YUM 安装了名为perl-libwww-perl的所需模块。

但它仍然不适用于我的操作。

对不起,我对此很陌生。感谢帮助!

0 投票
1 回答
42 浏览

r - 在循环中使用带有变量的 Meta() 函数:错误无法找到函数的继承方法?

我正在尝试从 GSM .soft 文件的元数据中提取单个值。我可以通过使用来做到这一点而不会出错Meta(GSM971958)$characteristics_ch1[3],但是当我尝试通过循环运行带有变量的相同类型的命令时出现错误。我不明白为什么前者可以正常工作,但后者不能。

这是带有错误消息的完整代码:

0 投票
1 回答
893 浏览

r - biomaRt R包中如何使用NCBI基因数据库

我不是 R 方面的专家,但我正在尝试学习如何使用 biomaRt 包来查找位于我感兴趣的区域的基因。

我已经设法使用带有以下代码的 ensembl 数据集生成有效的输出:

我知道“entrezgene”对应于 NCBI 基因 ID,但我想从 NCBI 获得基因名称。

有没有办法使用连接到 NCBI 数据库的 biomaRt 并检索该信息?

提前谢谢你。