问题标签 [ncbi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
129 浏览

python - 使用 biopython 下载 genbank 文件时出现 socket.gaierror

我想使用 Biopython 和登录号列表从 NCBI 下载 genbank 文件(请注意,我使用电子邮件地址作为参数调用脚本,例如 python scriptName.py emailAddress)

当我运行脚本时,它会在出现错误之前(仅)部分下载第一个文件:

我还没有确定我的代码是否有错误,我选择的模块是否有问题(即使 Biopython 应该处理调用),我的连接是否有问题(我的工作阻塞和节流没有警告),或者如果它是其他东西。

我尝试使用和不使用 urllib*/http* 模块运行它都无济于事(我得到了同样的错误)。但是,部分文件很有趣。直到最终序列的所有内容都被下载(最后有一个 contig 条目)。以下是下载文件的最后几行:

可以将其与原始 genbank 文件进行比较:http ://www.ncbi.nlm.nih.gov/nuccore/10955266/?report=genbank

我可以确认这不是与 DTD 文件相关的错误,但其他一切都可以解决。(NCBI 的新 RefSeq 版本与 Bio.Entrez.Parser 兼容?

我在 CentOS Python 3.4.3 :: Anaconda 2.3.0 (64-bit) :: Biopython 1.66 上运行这个脚本

0 投票
2 回答
1366 浏览

ftp - 从 ncbi 下载多个 fasta 文件

我正在尝试从 ncbi 下载与一种生物体相关的所有 fasta 文件。

我试图wget -r -l3 -A "*.fna.gz" ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/Microcystis_aeruginosa/从第三级以下获取所有以 .fna.gz 结尾的文件,但它只是拒绝所有具有以下输出的内容:

删除了“ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/Microcystis_aeruginosa/latest_assembly_versions/.listing”。拒绝“GCF_000010625.1_ASM1062v1”。拒绝“GCF_000307995.1_ASM30799v2”。拒绝“GCF_000312165.1_ASM31216v1”。拒绝“GCF_000312185.1_ASM31218v1”。拒绝“GCF_000312205.1_ASM31220v1”。拒绝“GCF_000312225.1_ASM31222v1”。拒绝“GCF_000312245.1_ASM31224v1”。拒绝“GCF_000312265.1_ASM31226v1”。拒绝“GCF_000312285.1_ASM31228v1”。拒绝“GCF_000312725.1_ASM31272v1”。拒绝“GCF_000330925.1_MicAerT1.0”。拒绝“GCF_000332585.1_MicAerD1.0”。拒绝“GCF_000412595.1_spc777-v1”。拒绝“GCF_000599945.1_Mic70051.0”。拒绝“GCF_000787675.1_ASM78767v1”。拒绝“GCF_000981785.1_ASM98178v1”。

关于它为什么拒绝这些目录的任何想法?谢谢你的帮助。

0 投票
0 回答
190 浏览

python - 通过使用 Entrez,Efetch 从分类数据库中搜索血统返回空结果

我使用 biopython 从分类数据库中搜索谱系信息,但它返回空!

我昨天(2016/3/15)可以使用它!但是现在我不能使用它(2016/03/16)!

我使用的代码在这里,

0 投票
1 回答
601 浏览

sequence - 如何在 biopython 中使用 Bioproject ID,例如 PRJNA12997?

我有一个 Excel 文件,其中给出了 2000 多个生物体,其中每个生物体都有一个相关的 Bioproject ID(如 PRJNA12997)。这个想法是使用这些 ID 来获取序列,以便稍后与我在文本文件中拥有的其他五个序列进行多重比对。

谁能帮我理解如何使用 biopython 做到这一点?至少具有生物项目 ID 的部分。

0 投票
1 回答
110 浏览

blast - Get database subject sequence with mismatches using NCBI command line blast

I am using Blast command line. The query (length 9) is ADZTZZETK, but when blasted against database sequence, it gives alignment of length 8 (ADZTZZET:ADZTZZET). It means that last, 9th, character of query sequence, K, is mis-matched with database sequence. However I still want to get the 9th mis-matched character of database sequence. Could someone tell me which option I should use in command line blast for that?

0 投票
3 回答
3512 浏览

bioinformatics - 如何从出租车中获取王国、门、类、目、科、属和种的分类学特定 ID?

我有一个出租车清单,如下所示:

我希望从上面的taxids中按顺序获取带有分类ID的文件:

我正在使用包“ ete3 ”。我使用工具ete-ncbiquery告诉您来自上述 id 的血统。(我使用下面的命令从我的 linux 笔记本电脑上运行它)

结果如下所示:

我不知道哪些项目(IDS)对应于我正在寻找的(如果有的话)

0 投票
1 回答
400 浏览

python - 您可以使用 biopython 一次搜索多个数据库吗

我的任务是使用 NCBI 的 E-Utilties 检索过去 10 年每年提交的关于 Crispr/Cas9 系统的论文数量。我将如何一次搜索多个数据库?到目前为止我的代码:

0 投票
1 回答
351 浏览

python - 如何从python中的多个登录号从ncbi返回相应的fasta蛋白序列?

我在使用 python 脚本在文本文件中下载多个入藏号的 fasta 序列时遇到了一些困难。我可以为单个入藏号执行此操作,例如:

但是当我尝试给它一个文件作为列表(见下文)时,我得到了错误。

这是我的输入文件的外观示例:

我确信解决方案很简单,但我一直在阅读论坛、ncbi 帮助页面和 python 初学者书籍,却无处可去!提前致谢。

0 投票
3 回答
2095 浏览

perl - 无法在 -e 第 1 行的未定义值上调用方法“登录”

这是我遇到的错误,我从名为 ncbi 的网站复制并粘贴了一组直接命令,这些命令是

我不知道要寻找什么,因为我不熟悉这些命令

编辑所以有些事情是由网站上的某个人修复的,但我仍在尝试输入

什么都没有发生,就像我只是输入“cat”一样,因为只发生了一个空行

0 投票
1 回答
942 浏览

python - Bio.Entrez EFetch 的替代方案,用于从 NCBI 下载全基因组序列

我的目标是从 NCBI 下载完整的后生动物基因组序列。我有我需要的基因组序列的唯一 ID 号列表。我计划使用 Bio.Entrez 模块 EFetch 下载数据,但今天通过 2011 年 11 月 2 日的发行说明 ( http://1.usa.gov/1TA5osg ) 了解到 EFetch 不支持“基因组”数据库。任何人都可以建议替代包/模块或其他方式吗?先感谢您!