问题标签 [genbank]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何使用 R 检索 genBank 中引用/存放的样本的地理来源?
一个简单的问题:如何使用 R 检索 genBank 中引用/存放的样本的地理来源?
最好的,谢谢!
佩德罗
biopython - Biopython Genbank.Record : 试图理解源代码
我正在编写一个 csv 阅读器来生成 Genbank 文件以捕获带有序列的注释。
首先,我使用了 Bio.SeqRecord 并获得了正确格式的输出,但 SeqRecord 类缺少我需要的字段。
Blockquote 特点 位置/限定符
HCDR1 27..35
HCDR2 50..66
HCDR3 99..109
我切换到 Bio.GenBank.Record 并拥有所需的字段,但现在注释格式错误。它不能有额外的“类型:”“位置:”和“限定符:”文本,并且信息应该都在一行上。
Blockquote 功能 位置/限定符
类型:HCDR1
位置:[26:35]
限定符:
类型:HCDR2
位置:[49:66]
限定符:
类型:HCDR3
位置:[98:109]
限定符:
两个版本的拉注代码是相同的。只有班级发生了变化。
我查看了 Bio.Genbank.Record 的源代码,但无法弄清楚为什么 SeqFeature 类与 Bio.SeqRecord 相比具有不同的格式输出。
是否有一个优雅的修复或者我编写一个单独的工具来重新格式化 Genbank 文件中的注释?
python - 遍历一系列 GenBank 基因并将每个基因的特征附加到列表中仅返回最后一个基因
我的代码有问题。我正在尝试使用 BioPython 遍历 genbank 文件的基因列表。这是它的样子:
看起来它应该可以工作,但是当我运行它时,生成的结构genBankEntries
只是一个巨大的堆栈,大小与 genbank 文件中的基因数量相当,但只有 seq_record.features 中的最终值作为每个列表元素:
这尤其令人困惑,因为两个 for 循环似乎都可以正常工作:
为什么是这样?
biopython - 如何使用 Efetch 下载_full_ RefSeq 记录?
我从 Nucleotide db 下载完整记录时遇到问题。我用:
这给了我一个简短版本的 gb 文件,所以命令:
不返回功能。
相比之下,当我用 GenBank ID 做同样的事情时没有问题:
之后,我可以从列表 seq_record.features 中提取每个带注释的特征。
有没有办法使用 Efetch 下载完整的 RefSeq 记录?
biopython - 如何从包含基于 ID 的多个基因组序列的 Genbank 文件中删除无效序列
我有一个约 3 GB 的 Genbank 文件,其中包含约 20,000 个细菌基因组序列的完整 Genbank 注释。我的目标是使用 BioPython 来解析这些序列,并为非重复序列编写单独的 fasta 文件,如下所示:
这对于前约 2,000 个序列非常有效,但随后到达带有无效页脚的条目并产生错误消息 ValueError: Sequence line mal-formed 'title>NCBI/ffsrv11 - WWW Error 500 Diagnostic'。
我设法找到了导致错误的序列,所以我想做的是从我的 Genbank 文件中删除它,然后手动将其下载为 fasta 文件。但是,我无法在文本编辑器中打开文件(由于其大小),也无法解析文件(由于错误),所以我想知道是否有人知道如何删除基于 Genbank ID 的序列。我对非 python 选项持开放态度。
先感谢您,
丹尼尔
feature-extraction - 如何按标签从 genbank 文件中提取特征?
我正在尝试解析 genbank 文件以查找特定功能。如果我知道特征类型(例如repeat_region),我可以把它拉出来——例如,如果我正在寻找这个特征:
我知道我可以使用以下方法找到它:
但我不相信它会永远是一个repeat_region。相反,我想按标签(5' ITR)查找它。我似乎可以找到一种从特征对象中解析它的方法。有什么建议么?
python - 如何在带有空格的单词之后获取序列
对于学校,我必须在一个带有很多空格的单词之后解析一个字符串,但我就是无法理解。因为文件是基因库。
例如:
我试过的是这个。
但我得到的是:
这是它得到的唯一东西,我想让输出像
所以我不知道该怎么做,我试图让它像最后一个输出一样。但没有成功。我的老师告诉我,我必须这样做。如果 BLA 是 True 你可以去迭代它。如果你看到“//”,你必须停下来,但是当我用那个 True - 语句尝试它时,我什么也没得到。
我试图在网上搜索它,它说我必须用 bio seqIO 来做。但是老师说我们不能用那个。
python - BioPython:如何通过 GenBank 中的“Locus”键进行解析
我有一个Genbank
包含许多序列的文件。我在 TSV 中有第二个文本文件,其中包含这些序列的名称以及有关它们的一些其他信息,我将其作为 pandas 数据框读取。我使用 .sample 函数从该数据中随机选择一个名称,并为其分配了变量n_name
,如下面的代码块所示。
n_name
等于genbank
文件中的轨迹名称,并且大小写准确。我正在尝试解析genbank
文件并提取具有locus = n_name
. 该genbank
文件名为all.gb
. 我有:
但我不太确定下一行或 2 应该是什么,按轨迹解析?有任何想法吗?
python - 尝试以 FASTA 格式读取文件,然后以 Genbank 格式写入另一个文件
尝试使用BioPython中的Seq和SeqIO对象读取包含基因组序列的文件。无法使用打开命令。该程序应该接受一个命令行参数,其中包含包含输入基因组的FASTA文件的名称。
它制作了文件,但文件中没有任何内容。不确定我错过了什么?
这就是我所拥有的:
python-3.x - 使用 biopython 在 genbank 文件中添加特征序列
我是 python 和 biopython 的新手,所以如果我问的东西真的很愚蠢或荒谬,请多多包涵;P
所以我正在研究一个学校的小组项目,我被要求编写一个必须包含的 genbank 文件:
- 对于每个重叠群:名称、环状与否、蛋白质数量、CG%、分类学类别、基因组
- 对于每个蛋白质:直系群、链、坐标、核序列和蛋白质序列,最后是分类注释。
这是我的代码
输出是这样的
有人可以告诉我如何使用 biopython 函数添加特征序列吗?以及如何删除一些不需要的部分,例如 VERSION。我也注意到 biopython 创建带有日期的 genbank 文件,但它不正确,我想摆脱它。
感谢您的所有帮助。