问题标签 [dna-sequence]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1982 浏览

python - 使用 Python 从 Newick 格式中提取分支长度

我在 python 中有一个列表,其中包含一个项目,它是以 Newick 格式编写的树,如下所示:

在树格式中,如下所示:

在此处输入图像描述

我正在尝试编写一些代码来查看列表项并返回 ID (BMNHxxxxxx),这些 ID (BMNHxxxxxx) 由 0 的分支长度(例如 <0.001)连接(以红色突出显示)。我考虑过使用正则表达式,例如:

取自另一个 StackOverflow 答案,其中项目 A 将是“:”,因为分支长度始终出现在 a : 之后,而项目 B 将是“,”或“)”或“;” 因为这些有三个字符来分隔它,但我在正则表达式方面没有足够的经验来做到这一点。

在这种情况下,通过使用 0 的分支长度,我希望代码输出 ['BMNH703458a', 'BMNH703458b']。如果我可以将其更改为还包括由用户定义值的分支长度(例如 0.01)连接的 ID,这将非常有用。

如果有人有任何意见,或者可以指出一个有用的答案,我将不胜感激。

0 投票
1 回答
1027 浏览

java - DNA测序程序不起作用

好的,所以我编写了这个程序,它应该使用动态编程来对 dna 字符串进行排序并插入间隙以创建最佳数量的配对。下面的代码是我写的,理论上它应该可以工作。但事实并非如此。它编译但是当它运行时它会无限运行。我试图在我看到的代码中插入检查,二维矩阵没有初始化和填充,因此卡在它将运行回溯程序的点。我可以用什么来调试它并找出代码不起作用的原因?

0 投票
3 回答
2443 浏览

java - Efficient way of converting RNA sequence to protein in Java, and arrayoutofbound error

Below is my highly inefficient and non working code for converting RNA sequence to Protein:

Now there are two problems associated with it:

  1. It is not working(Array out of bound exception)
  2. I cannot figure out how to manage the flanking unassociated redundant codes, which don't code for anything.

Is there any way I can use regex to solve this problem? (I mean like in perl) Edit : whole exception

0 投票
2 回答
1195 浏览

java - 在 Java 中查找简单序列重复的有效方法

我必须找到简单的序列重复,并且必须存储每个独特的重复及其位置。我已经编写了一个 perl 代码来做到这一点(它确实有大量的 if 和 for 用于查找重复直到五聚体)。我的问题是,在java中是否有一些更简单的方法可以做到这一点,比如一些正则表达式或搜索字符串并返回我连续重复和位置的计数,不涉及许多控制语句和迭代的东西。

更新:一个简单的序列重复(SSR)只是一个不间断的重复字符串,从二聚体开始(即两个不同的字符一起重复。)。这就像一个词在一个句子中不断重复,没有中断。如果是 DNA,它看起来像

这里 AT 和 TGA 是简单的序列重复,AT 是二聚体,TGA 是三聚体。我必须找到的是序列重复的起始位置,它被重复了多少次(即长度)以及它是哪个序列(即 AT 例如从位置 6 开始,它被重复 10 次,TGA 是从位置 25 开始,依此类推)

我的 perl 代码 :(而且它有点错误)

0 投票
1 回答
106 浏览

python - 在三个不同的帧上阅读

所以我正在尝试创建一个类,它在三个不同的帧中读取 DNA 字符串——一个从位置 0(或第一个碱基)开始,另一个从位置 1(第二个碱基)开始,第三个开始读取在位置 2(第三个基地)。到目前为止,这是我一直在玩的:

在这一点上,我认为这几乎是无稽之谈,但我已尽力而为。如果有人能给我一个关于我可以在这门课上从哪里开始纠正的想法,那就太好了。

0 投票
2 回答
158 浏览

bioinformatics - 将数字信息编码为 DNA

DNA是一种编码生物信息的结构。最近,DNA 被用于编码数字信息。(即,将照片、文本等数字信息翻译成 DNA 序列。究竟使用什么算法将二进制文件翻译成 DNA 序列?

正如维基百科所说:

每立方毫米 DNA 可储存 5.5 PB

http://en.wikipedia.org/wiki/DNA_digital_data_storage

因此它是在 DNA 中存储大量信息的有效方法。是否有任何好的参考书或教程书可以训练如何有效地将信息编码为 DNA 并将它们再次解码为原始信息?

谢谢

0 投票
1 回答
86 浏览

python-3.x - 突变 DNA 生成器中没有打印声明

所以我有一个代码,它是一个突变 dna 生成器——更具体地说,它产生 100 条链,任何碱基的点突变频率为 0.066%,来自我在代码中指定的原始链。然而,我遇到的问题是打印语句。我没有得到输出,我不知道为什么。这是我的代码:

有人知道我还应该添加什么以获得我在函数中指定的输出吗?我确实包含了一个打印语句,所以我不确定为什么代码没有产生任何结果。

编辑2:

那么代码应该看起来像这样吗?

但是如果我将结果移到函数之外,以便在函数内不重复 mutate,我会收到以下错误消息:

0 投票
1 回答
331 浏览

k-means - 如何对 DNA 序列(数据集)进行十进制编码?

我需要对我以 FASTA 格式下载的 DNA 序列(核苷酸)序列执行 K 均值聚类和层次聚类。所以在执行聚类之前,我需要对基数(a,t,c,g)进行十进制编码。那么如何做到这一点..这样我就可以在 MATLAB 中以矩阵形式获取这个输入?

0 投票
9 回答
72154 浏览

python - 使用 Python 反向互补 DNA 链

我有一个 DNA 序列,想用 Python 得到它的反向补充。它位于 CSV 文件的一列中,我想将反向补码写入同一文件中的另一列。棘手的部分是,有一些单元格不是 A、T、G 和 C。我能够用这段代码得到反向补码:

但是,当我尝试使用下面的代码查找补码字典中不存在的项目时,我只得到最后一个基数的补码。它不迭代。我想知道如何修复它。

0 投票
3 回答
1199 浏览

algorithm - string1 中的最小长度窗口,其中 string2 是子序列

给出了主要的 DNA 序列(一个字符串)(比如说 string1)和另一个要搜索的字符串(比如说 string2)。您必须在 string1 中找到最小长度窗口,其中 string2 是子序列。
string1 = "abcdefababaef"
string2 = "abf"

我想到但似乎不起作用的方法:
1. 使用最长公共子序列(LCS)方法并检查(LCS 的长度 = string2 的长度)。但这会给我 string2 是否作为子序列存在于 string1 中,但不是最小的窗口。
2. KMP 算法,但不知道如何修改它。
3. 准备string2 中string1 的{characters: pos of characters} 的映射。喜欢: { a : 0,6,8,10
b : 1,7,9
f : 5,12 }
然后一些方法来找到最小窗口并仍然保持“abf”的顺序

我不确定我是否在思考正确的方向,或者我完全偏离了方向。
有没有已知的算法,或者有人知道任何方法吗?请建议。
提前致谢。