问题标签 [genbank]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bash - awk 双斜杠记录分隔符
我正在尝试根据字符串“//”来分隔文件的记录。
我试过的是:
其中“******”等只是向我显示记录已拆分的痕迹。
但是,该文件还包含/
(由它们自己)并且我的踪迹 ******
正在那里打印,这也意味着 awk 也将它们解释为我的记录分隔符。
我怎样才能让 awk 只在//
????上拆分记录
更新:我在 Unix 上运行(OS X 附带的那个)
我找到了一个临时解决方案,即:
但是必须有更好的方法,尤其是对于我正在处理的大量文件。
python - 如何使用 biopython 编辑和保存 genbank 文件的序列到新的 genbank 文件?
我有一个错误的 .gbk 文件,并且我有遵循以下格式的更正列表
“核苷酸的地址:正确的核苷酸”
我知道如何打开和解析精确的原始序列
我只需要知道如何用我自己的核苷酸校正来替换它。我试过了
dna_refseq 只是一个构成整个基因组的列表
我在文档或在线的任何地方都找不到这个特定的动作,直观地说,这是 biopython 应该能够做到的。
python - Entrez 和 SeqIO “在句柄中找不到记录”
我的代码如下所示:
倒数第二行给了我这个错误:
我的文件看起来不错 - 它不是空的或任何东西。有很多记录,据我所知,它的格式是正确的。我到底做错了什么?
我注意到这适用于其他数据库 - 例如“核苷酸”。是 Pubmed 的问题吗?这需要不同的格式吗?谢谢。
python - 使用 biopython 仅下载部分 genbank 文件
我是 Biopython 新手,在解析 genbank 文件时遇到性能问题。
我必须解析很多 gb 文件,从中我有入藏号。解析后,我只想检查文件的分类和细胞器。现在,我有这个代码:
为了寻找分类法,我有:
这(整个脚本)工作正常。我的问题是我下载整个 gb 文件(有时很大)只是为了查看这两个特征:细胞器和分类。如果我只能下载 gb 文件的这一部分,我的脚本会快得多,但我还没有弄清楚这是否可能。
有人知道这是否可以做到,如果可以,怎么做?非常感谢提前
python - 从 python 的 fasta 标头中的相应 GI 编号获取 NCBI 的入藏号
我一直在 Genbank 上看到警告说他们正在逐步淘汰 GI 编号,并保存了许多 fasta 文件,我以以下格式编辑了标题:
我什至不知道从哪里开始,但有没有一种方法,最好是使用 python,我可以从 NCBI 获取每个 gi 的相应登录号,并输出一个带有如下标题的文件:
这是文件格式的另一个示例:
编辑/更新:
r - 按 R 中物种的顺序过滤基因库文件
我正在制作哺乳动物 456 个 FOXP2 基因序列的 genbank 文件的本地数据库,这些序列来自一个blastn。我使用“ape”R 包来探索 genbank 文件,我使用了具有 456 个 ID 的 read.genbank 函数并将结果存储在一个对象上。我想从所有这些哺乳动物序列中对啮齿动物进行子集化,但是该对象具有的唯一属性是名称(ID)、类别、描述和物种。有没有一种方法可以过滤我的文件以便只获取啮齿动物?
python - 使用python根据关键字获取蛋白质FASTA序列
我想用 python 2.7 从 Entrez 收集蛋白质 FASTA 序列。我正在寻找任何具有关键字的蛋白质:名称中的“终止酶”和“大”。到目前为止,我得到了这段代码:
然而,它可以让我从各种生物体中获得几个终止酶,而我只需要形成噬菌体的终止酶(特别是病毒 [taxid 10239],宿主细菌。我已经设法从我感兴趣的病毒的 NCBI 获得了 nuccore 登录 ID,但是我不知道如何结合这两个信息。id文件如下所示:
我是否需要访问每个 ID 的每个 gb 文件并在其中搜索我想要的蛋白质?
metadata - 从基因组 gbff 文件中提取元数据
我有超过 1000 个 .gbff.gz 基因组文件,我想从每个文件中提取元数据,并将元数据条目放在单独的列中。
java - 在 Genbank 的多页结果中翻页
示例:http ://www.ncbi.nlm.nih.gov/nuccore/?term= trocholejeunea 其中 4 页有 79 个项目,但是,当我通过单击“上一个”或“下一个”浏览页面时,地址变成了 http://www.ncbi.nlm.nih.gov/nuccore/ 最后加“&page=2”是不行的,源码中看不到href或者javascript:
我想知道这是如何实现的,以及如何通过java对其进行爬取?谢谢!
loops - 如何优雅地将变量传递给命令
我有一组当前可用于一个文件的命令:
(我知道,效率不是很高,但对我有用)。简而言之,它的作用是:它从 stringABC
到LOCUS
file输出行mainfile.gbk
,然后是几个sed
&grep
命令使文件可解析,最后将所有内容写入一个新文件ABC.txt
。
现在我想在字符串列表上迭代该命令,即
list.txt
这样每一行 fromlist.txt
被取出并分配给一个变量,然后运行命令,最后list.txt
输出一个文件中的每一行。
我想把命令放在一个while read line
循环中,但不知何故,变量的分配不起作用/它们没有传递给命令......