问题标签 [genbank]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
539 浏览

bash - awk 双斜杠记录分隔符

我正在尝试根据字符串“//”来分隔文件的记录。

我试过的是:

其中“******”等只是向我显示记录已拆分的痕迹。

但是,该文件还包含/(由它们自己)并且我的踪迹 ******正在那里打印,这也意味着 awk 也将它们解释为我的记录分隔符。

我怎样才能让 awk 只在//????上拆分记录

更新:我在 Unix 上运行(OS X 附带的那个)

我找到了一个临时解决方案,即:

但是必须有更好的方法,尤其是对于我正在处理的大量文件。

0 投票
1 回答
521 浏览

python - 如何使用 biopython 编辑和保存 genbank 文件的序列到新的 genbank 文件?

我有一个错误的 .gbk 文件,并且我有遵循以下格式的更正列表

“核苷酸的地址:正确的核苷酸”

我知道如何打开和解析精确的原始序列

我只需要知道如何用我自己的核苷酸校正来替换它。我试过了

dna_refseq 只是一个构成整个基因组的列表

我在文档或在线的任何地方都找不到这个特定的动作,直观地说,这是 biopython 应该能够做到的。

0 投票
1 回答
425 浏览

python - Entrez 和 SeqIO “在句柄中找不到记录”

我的代码如下所示:

倒数第二行给了我这个错误:

我的文件看起来不错 - 它不是空的或任何东西。有很多记录,据我所知,它的格式是正确的。我到底做错了什么?

我注意到这适用于其他数据库 - 例如“核苷酸”。是 Pubmed 的问题吗?这需要不同的格式吗?谢谢。

0 投票
1 回答
405 浏览

python - 使用 biopython 仅下载部分 genbank 文件

我是 Biopython 新手,在解析 genbank 文件时遇到性能问题。

我必须解析很多 gb 文件,从中我有入藏号。解析后,我只想检查文件的分类和细胞器。现在,我有这个代码:

为了寻找分类法,我有:

这(整个脚本)工作正常。我的问题是我下载整个 gb 文件(有时很大)只是为了查看这两个特征:细胞器和分类。如果我只能下载 gb 文件的这一部分,我的脚本会快得多,但我还没有弄清楚这是否可能。

有人知道这是否可以做到,如果可以,怎么做?非常感谢提前

0 投票
1 回答
851 浏览

python - 从 python 的 fasta 标头中的相应 GI 编号获取 NCBI 的入藏号

我一直在 Genbank 上看到警告说他们正在逐步淘汰 GI 编号,并保存了许多 fasta 文件,我以以下格式编辑了标题:

我什至不知道从哪里开始,但有没有一种方法,最好是使用 python,我可以从 NCBI 获取每个 gi 的相应登录号,并输出一个带有如下标题的文件:

这是文件格式的另一个示例:

编辑/更新:

0 投票
0 回答
59 浏览

r - 按 R 中物种的顺序过滤基因库文件

我正在制作哺乳动物 456 个 FOXP2 基因序列的 genbank 文件的本地数据库,这些序列来自一个blastn。我使用“ape”R 包来探索 genbank 文件,我使用了具有 456 个 ID 的 read.genbank 函数并将结果存储在一个对象上。我想从所有这些哺乳动物序列中对啮齿动物进行子集化,但是该对象具有的唯一属性是名称(ID)、类别、描述和物种。有没有一种方法可以过滤我的文件以便只获取啮齿动物?

0 投票
1 回答
308 浏览

python - 使用python根据关键字获取蛋白质FASTA序列

我想用 python 2.7 从 Entrez 收集蛋白质 FASTA 序列。我正在寻找任何具有关键字的蛋白质:名称中的“终止酶”和“大”。到目前为止,我得到了这段代码:

然而,它可以让我从各种生物体中获得几个终止酶,而我只需要形成噬菌体的终止酶(特别是病毒 [taxid 10239],宿主细菌。我已经设法从我感兴趣的病毒的 NCBI 获得了 nuccore 登录 ID,但是我不知道如何结合这两个信息。id文件如下所示:

我是否需要访问每个 ID 的每个 gb 文件并在其中搜索我想要的蛋白质?

0 投票
1 回答
369 浏览

metadata - 从基因组 gbff 文件中提取元数据

我有超过 1000 个 .gbff.gz 基因组文件,我想从每个文件中提取元数据,并将元数据条目放在单独的列中。

0 投票
0 回答
37 浏览

java - 在 Genbank 的多页结果中翻页

示例:http ://www.ncbi.nlm.nih.gov/nuccore/?term= trocholejeunea 其中 4 页有 79 个项目,但是,当我通过单击“上一个”或“下一个”浏览页面时,地址变成了 http://www.ncbi.nlm.nih.gov/nuccore/ 最后加“&page=2”是不行的,源码中看不到href或者javascript:

我想知道这是如何实现的,以及如何通过java对其进行爬取?谢谢!

0 投票
1 回答
23 浏览

loops - 如何优雅地将变量传递给命令

我有一组当前可用于一个文件的命令:

(我知道,效率不是很高,但对我有用)。简而言之,它的作用是:它从 stringABCLOCUSfile输出行mainfile.gbk,然后是几个sed&grep命令使文件可解析,最后将所有内容写入一个新文件ABC.txt

现在我想在字符串列表上迭代该命令,即

list.txt

这样每一行 fromlist.txt被取出并分配给一个变量,然后运行命令,最后list.txt输出一个文件中的每一行。

我想把命令放在一个while read line循环中,但不知何故,变量的分配不起作用/它们没有传递给命令......