问题标签 [bioinformatics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
string - 根据常见的子模式对短的、同质的字符串 (DNA) 进行聚类并提取类的共识
任务:
将大量短 DNA 片段聚集在具有共同子序列模式的类中,并找到每个类的共有序列。
- 游泳池:约。300个序列片段
- 每个片段 8 - 20 个字母
- 4 个可能的字母:a,g,t,c
- 每个片段都分为三个区域:
- 5个通用字母
- g和c的8个或更多位置
- 5个通用字母
(作为正则表达式[gcta]{5}[gc]{8,}[gcta]{5}
)
计划:
执行多重比对(即与ClustalW2)以查找在区域2 中共享共同序列及其共有序列的类。
问题:
- 我的碎片是否太短,是否有助于增加它们的大小?
- 区域 2 是否过于同质,只有两种允许的字母类型,无法在其序列中显示模式?
- 您可以为这项任务推荐哪些替代方法或工具?
此致,
西蒙
python - BioPython:使用 Entrez.esummary/Entrez.read 跳过错误的 GID
对不起,奇怪的标题。
我正在使用 eSearch 和 eSummary 从
入藏号 --> gID --> TaxID
假设“accessions”是一个包含 20 个入藏号的列表(我一次做 20 个,因为这是 NCBI 允许的最大值)。
我愿意:
这给了我来自这 20 个入藏号的 20 个对应的 GID。
其次是:
这给了我这个错误,因为 gids 中的一个 GID 已从 NCBI 中删除:
我可以尝试:,除了:除了会跳过其他 19 个没问题的 GID。
我的问题是:
如何使用 Entrez.read 一次读取 20 条记录并跳过丢失的记录而不牺牲其他 20 条记录?我可以一次做一个,但这会非常慢(我有 300,000 个登录号,而 NCBI 只允许您每秒进行 3 次查询,但实际上它更像是每秒 1 次查询)。
perl - 如何从 Perl 中的 DNA 序列中提取起始密码子和结束密码子?
我在下面有一个代码,试图识别给定 DNA 序列的起始和结束密码子的位置。我们将起始密码子定义为ATG序列,将结束密码子定义为TGA、TAA、TAG序列。
我遇到的问题是下面的代码仅适用于前两个序列(DM208659 和 AF038953),但不适用于其余的。
我下面的方法有什么问题?
此代码可以从此处复制粘贴。
python - 在python中为多列输出两行
我正在使用包含以下信息的输出列表:
我想将它写入一个 excel 文件,该文件将使用样本名称作为列的标题,然后是列中样本的值来格式化它。一些样本没有值,因此这些空格将为空白或没有数据符号。看起来像这样的东西(抱歉必须使用 >> 来表示列分离):
任何帮助都会很棒。
perl - 如何将其更改为“惯用的”Perl?
我开始深入研究 Perl,但是在编写“Perl-ly”代码而不是用 Perl 编写 C 时遇到了麻烦。如何更改以下代码以使用更多 Perl 习语,我应该如何学习这些习语?
只是对它在做什么的解释:此例程是对齐 DNA 或氨基酸序列的模块的一部分(如果您关心此类事情,请使用 Needelman-Wunch)。它创建了两个二维数组,一个用于存储两个序列中每个位置的分数,另一个用于跟踪路径,以便以后可以重新创建得分最高的对齐方式。它工作得很好,但我知道我做的事情不是很简洁明了。
编辑:这是为了分配。我完成了它,但想稍微清理一下我的代码。如果您有兴趣,可以在课程网站上找到有关实现该算法的详细信息。
bioinformatics - 使用 BioPython 运行 BLAST 查询
我想
- BLAST 几个序列
- 从每个查询中检索前 100 个左右的命中
- 汇集下载的序列
- 删除重复项
我如何在 BioPython 中做到这一点?
r - R统计包:包装GOFrame对象
我正在尝试生成 GOFrame 对象以在 R 中为不受支持的生物体生成基因本体映射(参见http://www.bioconductor.org/packages/release/bioc/vignettes/GOstats/inst/doc/GOstatsForUnsupportedOrganisms.pdf)。
但是,按照说明从字面上看对我没有帮助。这是我执行的代码(ubuntu koala 64 位上的 R 2.9.2)
但是,当我尝试将我的数据框映射到 goFrame 对象时,我得到了这个错误
我很确定 GOFrame 包装器在 AnnotationDBI 库中,所以我很困惑。任何帮助都非常感谢:-)
java - DNA序列的计算
你能告诉我如何使用 Levenshtein 算法通过 Java 计算 DNA 序列吗
customization - 自定义 BLAST 的输出?
我知道这是一个与 BLAST 和生物信息学相关的非常具体的问题,但这里有:
我正在尝试使用独立的 BLAST(我已经下载并测试了它在命令行上运行)来执行 DNA 序列比对(blastn)。我需要能够提供我自己的查询文件(fasta 格式)和我自己的数据库文件(也是 fasta 格式)。
关键是我想让程序只输出 2 个字段,而不是它通常输出的详细报告。我只希望输出对齐的最高分和 e 值。这个想法是,一旦我有了这个工作,我可以将它包装在我自己的控制程序中,并使用不同的查询序列自动运行它多次并记录分数和电子值。
我知道这是一个很长的镜头,但是有人知道我该如何去做吗?我的两个障碍是使用我自己的数据库文件和自定义输出。