问题标签 [dna-sequence]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
519 浏览

python - 以 3 的倍数为一组将字符串与字典进行比较

我正在编写一个程序,它读取许多 DNA 字符(总是能被 3 整除)并检查它们是否对应于相同的氨基酸。例如 AAT 和 AAC 都对应于 N,所以我的程序应该打印“It's the same”。它做得很好,但我只是不知道如何比较 6/9/12/3 的任何倍数,看看定义是否相同。例如:

应该还给我因为他们都是KNK。

这是我的代码:

我的 codon_amino.txt 的结构如下:

我如何比较 3 种模式中的 DNA 结构?我让它适用于 3 个字母长的字符串,但它会返回一个错误。

编辑:

如果我知道如何将 a 和 b 拆分为一个以三个为间隔的列表,这可能会有所帮助:

然后我可以轻松地使用 for 循环来遍历它们,但是我如何首先拆分它们呢?

编辑:解决方案:

0 投票
1 回答
3002 浏览

java - 通过Java中给定的最大汉明距离(不匹配的数量)获取所有字符串组合

是否有一种算法可以通过给定的最大允许位置数量(最大不匹配,最大汉明距离)生成字符串(DNA序列)的所有可能字符串组合?

字母表是 {A,C,T,G}。

字符串AGCC和最大数量的 Mismatches示例2

一种可能的方法是生成一个具有给定字符串的所有排列的集合,迭代它们并删除所有具有更大汉明距离的字符串。

这种方法非常消耗资源,给定的 20 个字符的字符串和 5 的最大汉明距离。

是否有另一种更有效的方法/实现?

0 投票
4 回答
2229 浏览

string - 需要计算字符串R中出现字母序列的次数

所以我有一个核苷酸序列,我需要计算 gaga 这个词在序列中出现的次数。这是我到目前为止所拥有的:

这是一个示例输出:

最后,我将编写一个循环来让它运行 100 次,并绘制一个单词“gaga”计数的直方图。所以,我的主要问题是:如何编写函数或代码来搜索字符串 x2 并计算单词“gaga”的出现次数。

任何帮助,将不胜感激!谢谢!

0 投票
2 回答
28996 浏览

python - 将 DNA 翻译成蛋白质

我是一名生物学研究生,在过去的几个月里,我自学了非常有限的 python 来处理我拥有的一些数据。我不是在寻求家庭作业帮助,这是一个研究项目。

使用此代码,我打算获取一个称为序列的字符串的一部分,介于:找到“蛋白质翻译”的起始位点或ATG的第一次出现(生物术语是起始密码子),然后是TAA的第一次出现(终止密码子)。

然后,该函数translate_dna()应该为字符串中的每三个字母交换字典值。变量 CDS 正确存在,但是对于,或者如果我的函数中的循环不起作用:(。有什么建议吗?输入文件的格式如下:

代码:

0 投票
5 回答
11608 浏览

python - 反向补体 DNA

我有这个用于在 python 中反向互补 DNA 的方程:

但是这些行:

彼此不相等。只有第一行给出了答案。底部只打印“NONE”

有什么帮助吗?

0 投票
1 回答
1193 浏览

python - 使用 Levenshtein-Distance 获取子序列的位置

我有大量包含序列('ATCGTGTGCATCAGTTTCGA...')的记录,最多 500 个字符。我还有一个较小序列的列表,通常是 10-20 个字符。我想使用 Levenshtein 距离来在记录中找到这些较小的序列,从而允许小的变化或插入缺失(L_distance <=2)。

问题是我也想得到这样更小的序列的起始位置,显然它只比较相同长度的序列。

在这个例子中,我想获得位置(7)和距离(在这种情况下为 0)。

有没有一种简单的方法可以解决这个问题,还是我必须将较大的序列分解成较小的序列,然后为所有这些序列运行 Levenshtein 距离?这可能需要太多时间。

谢谢。

UPDATE #Naive 实现在查找完全匹配后生成所有子字符串。

0 投票
2 回答
70 浏览

python - 谁能帮我弄清楚这段代码有什么问题?相同的RNA序列匹配程序

到目前为止,这是我所拥有的:提示用户输入两个序列似乎有错误。

0 投票
1 回答
4916 浏览

python-2.7 - Python:嵌套for循环 - 名称未定义

首先,我必须指出我不是程序员,所以这可能是一个愚蠢的问题,但我想了解这里发生了什么。

程序应该通过一个字符串(基因组),并滑动一个任意长度的窗口(在本例中为“l”)。它搜索给定长度 (k) 的重复字符序列并记录序列的出现次数。我确实设法在整个字符串中找到重复的序列,但所说的窗口让我很困扰。我尝试使用嵌套循环:

我收到一个错误:“NameError: name 'c' is not defined” 这个问题的原因是什么,是否有一种易于理解的解决方法?效率并不是很重要,所以我想保持一个类似的结构(我发现很多主题描述了避免使用嵌套 for 循环的方法,但我现在觉得它很混乱)。

先感谢您。

0 投票
1 回答
120 浏览

search - 查找与目标序列不匹配的序列

Biostar的Rnaer提出了一个有趣的问题:

我想找到与 C.elegans 基因组的任何区域都不匹配的给定长度(例如 30nt)的独特 dna/蛋白质序列。有什么工具可以做到这一点吗?

0 投票
0 回答
306 浏览

java - 在 JSP Struct 网页上可视化 DNA 序列

我们必须将 DNA 序列对齐更苗条地可视化,才能像下面这样爆炸可视化器 >我们的项目是一个基于 Web 的项目,它具有 Java 后端和 JSP、Struct

当前需要的可视化方法 http://eagle.fish.washington.edu/Arabidopsis/20110721%20PGS2%20BLAST%20Alignment.png

HTML 表格不能用来可视化动态内容。对齐信息已经生成,我们需要知道一种方法,即使使用 jQuery 或 flash 插件,也可以在图像中以更苗条的方式可视化。