问题标签 [genbank]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 将 GenBank 格式文件转换为 FASTA 格式
我对 Java 很陌生,想构建一个可以将 GenBank 文本文件转换为 FASTA 格式的程序。基本上会有两个 texboxes:一个是我上传 GenBank 格式文件的地方,另一个是显示转换后的 FASTA 格式文件的地方。
这是一个 GenBank 格式文件:
其对应的FASTA格式文件为:
任何人都可以帮助我提供有关如何修剪 GenBank 文件并通过单击按钮将其显示在第二个文本框中的方法或代码的建议。
我正在使用 Netbeans 6.9。
perl - 从 genbank 格式中提取序列
这段代码工作正常,但现在它抱怨,genbank 结构改变了吗?
r - Genbank查询(包seqinr):在序列描述中搜索
我正在使用query()
package的功能seqinr
从 Genbank 下载肌红蛋白 DNA 序列。例如:
不幸的是,对于我正在寻找的许多物种,我根本没有得到任何序列(或者对于这个物种,只有一个非常短的序列),即使我在网站上手动搜索时找到了序列。这是因为仅在关键字中搜索“肌红蛋白”,而其中通常没有任何条目。通常蛋白质类型仅在名称中指定(Genbank 上的“定义”)——但我不知道如何搜索它。上的帮助页面query()
似乎没有在详细信息中提供任何选项,没有任何“K =”的“通用搜索”不起作用,而且我没有通过谷歌搜索找到任何东西。
对于任何链接、解释和帮助,我都会很高兴。谢谢!:)
python - 解析 GenBank 文件:获取基因座标签与产品
基本上,GenBank 文件包含基因条目(由“基因”宣布,然后是其相应的“CDS”条目(每个基因只有一个),就像我在下面展示的两个一样。我想在制表符分隔中获取 locus_tag 与产品两列文件。“基因”和“CDS”总是前后有空格。
问题在于,似乎因为“产品”有时在其名称中包含“/”字符,因此它与该脚本有冲突,据我所知,它使用“/”作为字段分隔符将信息存储在大批?
我想解决这个问题,要么修改这个脚本,要么构建另一个。
python - Python。尝试使用 BioPython 将 3 个最长基因核苷酸序列的文件从 genbank 文件排序到 fasta 文件中
我对python比较陌生,所以请原谅这个问题带来的白痴。我有一个 genbank 文件并编写了一段代码,它将获取前 3 个最长的基因并将它们放入一个新生成的 fasta 文件中。
我想要做的不是手动输入检查是否超过 7kb 来找到代码本身的方法并自动找到 3 个热门点击。任何有关我可以去哪里的帮助将不胜感激。谢谢
python - SeqIO:“在句柄中找不到记录”
我刚刚开始使用 Python 和 BioPython,没有太多的编程经验。我很感激你们能给我的任何帮助。
我正在尝试从 genbank 中提取 CDS 和/或 rRNA 序列。重要的是我只得到开放阅读框,这就是为什么我不只是拉出整个序列。当我运行下面的代码时,它会返回一条错误消息:
在句柄中找不到记录
对于如下代码行:record = SeqIO.read(handle, "genbank")
. 我不知道如何纠正这个问题。我在下面包含了我正在使用的代码。
另外,如果有更简单的方法或发布代码,如果你们让我知道,我将不胜感激。
谢谢!
python - Modify location of a genbank feature
Edit : I know feature.type
will give gene/CDS and feature.qualifiers
will then give "db_xref"/"locus_tag"/"inference" etc. Is there a feature.
object which will allow me to access the location (eg: [5240:7267](+)
) directly?
This URL give a bit more info, though I can't figure out how to use it for my purpose... http://biopython.org/DIST/docs/api/Bio.SeqFeature.SeqFeature-class.html#location_operator
Original Post:
I am trying to modify the location of features within a GenBank file. Essentially, I want to modify the following bit of a GenBank file:
#xA;to
#xA;Note the changes from 5240 to 5357
So far, from scouring the internet and Stackoverflow, I have:
#xA;This basically creates a new qualifier called "amend_position".. however, what I would like to do is modify the location directly (with or without creating a new file...)
Rv0005 is just an example of a locus_tag I need to update. I have about 600 more locations to update, which explains the need for a script.. Help!
python - Biopython解析没有基因组序列的GBK文件
我编写了一个脚本,它使用 GenBank 文件和 Biopython 从 GBK 文件的序列部分中获取给定基因的序列,我的同事将其用于他们的工作。
我们现在在使用新数据集时遇到了一些问题,结果表明下载的 GBK 文件不包含序列(当您从 NCBI 的 GenBank 网站下载时很容易发生这种情况)。Biopython 在使用record.seq[start:end]
. 从一开始就捕获该问题以停止带有错误消息的脚本的最简单方法是什么?
smalltalk - 请帮我从磁盘读取 genbank 文件并将其转换为 fasta
请指导我使用 biosmalltalk(Pharo 版)将 GenBank 序列转换为其等效的 FASTA 格式。我已经想办法从磁盘读取 GenBank 文件:| 文件 xym | x:=时间毫秒时钟值。文件 := BioFile on: (FileStream readOnlyFileNamed: BioObject testFilesDirectoryName asFileReference / 'AF165912.gbk')。m:=BioParser tokenizeMultiFasta:文件内容。y:=时间毫秒时钟值。成绩单打开。成绩单清晰。成绩单显示:m;cr。现在我想获得它的 FASTA 等价物。
regex - 使用正则表达式更改单行字符串的字符长度
我从一个 genbank 文件中提取了一个序列,该文件由具有 60 个碱基的单行字符串组成(末尾有一个 \n)。如何使用 perl 修改序列,以便使用 regex 而不是 bioperl 为每行打印 120 个碱基。原始格式:
我只设法将它们变成长度为 60 个字符的字符串。仍在试图弄清楚如何使它们长 120 个字符。
}
输入示例:
每个单行字符串有 60 个碱基。
更新(仍然没有给出 120 个碱基长的 seq 行):