问题标签 [dna-sequence]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
933 浏览

perl - 生成具有替换率的合成 DNA 序列

鉴于这些输入:

我想生成:

  1. 一千个长度 - 10 个标签

  2. 标签中每个位置的替换率是 0.003

产生输出如:

在 Perl 中有一种紧凑的方法吗?

我坚持将此脚本的逻辑作为核心:

0 投票
5 回答
638 浏览

python - 寻找优雅的球状 DNA 字符串扩展

我正在尝试对一组具有多个可能碱基的 DNA 字符串进行类似球状的扩展。

我的 DNA 字符串的碱基包含字母 A、C、G 和 T。但是,我可以有特殊字符,例如 M,可以是 A 或 C。

例如,假设我有字符串:

ATMM

我想将此字符串作为输入并输出四个可能的匹配字符串:

ATAA ATAC ATCA ATCC

我觉得必须有一些优雅的 Python/Perl/正则表达式技巧才能做到这一点,而不是蛮力解决方案。

谢谢你的任何建议。

编辑,感谢 cortex 的产品运营商。这是我的解决方案:

仍然是 Python 新手,所以我敢打赌,处理每个字典键的方法比另一个 for 循环更好。任何建议都会很棒。

0 投票
3 回答
2671 浏览

perl - Perl递归技术?

我需要一些帮助是这段代码。我知道应该递归的部分,或者至少我认为我知道但不确定如何实现它。我正在尝试从对齐矩阵中实现寻路程序,该程序将找到返回零值的多条路线。例如,如果您执行我的代码并插入 CGCA 作为第一个序列,将 CACGTAT 作为第二个序列,以及 1、0 和 -1 作为匹配、不匹配和差距分数。该程序给出的路径为 HDHHDD,对齐方式为

CACGTAT

CGC--A-。

然而,除了我不知道有多少之外,还有更多可能的路径和路线。我想要做的是让我的一段代码自行循环并找到其他路径和对齐方式,使用与第一次相同的代码,直到它用完可能的对齐方式。我在网上找到的最好的方法是递归,除了没有人能解释如何做到这一点。在这种情况下,应该有另外两条路径和对齐方式 HDDDHHD 和 CACGTAT 以及 C--GCA- 和。HDDDDHH、CACGTAT 和--CGCA-。我只是不知道如何编写代码来执行此任务。

如果有人想知道这是一种needleman-wunsch 算法。这里的任何帮助都会非常感激。

0 投票
2 回答
536 浏览

string - 根据常见的子模式对短的、同质的字符串 (DNA) 进行聚类并提取类的共识

任务:
将大量短 DNA 片段聚集在具有共同子序列模式的类中,并找到每个类的共有序列。

  • 游泳池:约。300个序列片段
  • 每个片段 8 - 20 个字母
  • 4 个可能的字母:a,g,t,c
  • 每个片段都分为三个区域:
    1. 5个通用字母
    2. g和c的8个或更多位置
    3. 5个通用字母
      (作为正则表达式[gcta]{5}[gc]{8,}[gcta]{5}

计划:
执行多重比对(即与ClustalW2)以查找在区域2 中共享共同序列及其共有序列的类。

问题:

  1. 我的碎片是否太短,是否有助于增加它们的大小?
  2. 区域 2 是否过于同质,只有两种允许的字母类型,无法在其序列中显示模式?
  3. 您可以为这项任务推荐哪些替代方法或工具?

此致,

西蒙

0 投票
2 回答
1212 浏览

perl - 如何使用替换矩阵修改 Smith-Waterman 算法以在 Perl 中对齐蛋白质?

如何使用替换矩阵修改Smith-Waterman 算法以在 Perl 中对齐蛋白质?

[需要引用]

0 投票
1 回答
496 浏览

ruby - 从几个给定的集合中生成所有可能的 dna 序列

我一直在尝试解决这个问题一段时间,但一直未能找到一个好的解决方案。开始:

给定多个集合:

我想从集合列表中生成所有可能的序列。在这个例子中,序列的长度是 5,但它可以是大约 20 左右的任何长度。对于位置 1,可能的候选者分别是“A”和“T”,对于位置 2,唯一的选项是“C”,所以在。

上面例子的答案是:

ACATG, ACCTG, ACGTG, TCATG, TCCTG, TCGTG

我在 ruby​​ 中执行此操作,并且我将不同的集合作为主数组中的数组:

起初我认为递归解决方案是最好的,但我无法弄清楚如何正确设置它。

我的第二个想法是创建另一个相同大小的数组,每个数组都有一个索引。因此 00000 将对应于“ACATG”上方的第一个序列,而 10200 将对应于“TCGTG”。从 00000 开始,我会将最后一个索引增加 1,并将其与相关集合的长度取模(set1 为 2,set2 为 1),如果计数器环绕,我会将其归零并将前一个索引增加一个。

但是我对这个解决方案的思考越多,对于这个非常小的问题来说似乎太复杂了。必须有一个我缺少的更直接的解决方案。谁能帮帮我?

/缺口

0 投票
10 回答
1256 浏览

database - 是否有任何现有的解决方案可以使用网站前端创建通用 DNA 序列数据库?

我想为我工作的实验室创建一个带有网络前端的 rRNA 序列数据库。在生物学中,使用 BLAST 和 HMMER 等比对算法搜索大量序列似乎很常见,所以我想知道是否有是否有任何现有的 php/python/rails 项目允许使用网站搜索表单轻松创建通用序列数据库?

更新GMOD是我正在寻找的服务器类型。我还被建议看一下BioMart,它看起来也有类似的功能。

0 投票
2 回答
108 浏览

database - 擅长存储生物序列的商业数据库

哪些商业数据库擅长存储蛋白质/DNA序列等生物序列?有没有专门为存储这些序列而设计的?

干杯

0 投票
3 回答
1511 浏览

python - 用于微阵列数据的稳健多阵列平均值的 python 脚本

我试过谷歌但没有运气。我已经看到一些对使用 python 完成的健壮多数组平均但没有代码的弱引用。我对重新发明轮子没那么感兴趣。关于 python 模块、脚本的任何建议....

如果我能找到一个很好的解释或算法示例,我会编写一个 python 实现来分享。

如果你不确定我在说什么,你可以看看这个,尽管这不是定义。 http://www.mathworks.com/access/helpdesk/help/toolbox/bioinfo/ref/gcrma.html

0 投票
3 回答
2715 浏览

python - 原生 Python 中的 DNA 序列比对(无 biopython)

我有一个有趣的遗传学问题,我想在原生 Python 中解决(标准库之外没有)。这是为了使该解决方案在任何计算机上都非常易于使用,而无需用户安装额外的模块。

这里是。我从 454 次新一代测序运行中收到了 100,000 条 DNA 序列(最多 20 亿条)。我想修剪四肢以去除两端可能存在的引物,包括正常序列和有义序列。例子:

引物可以出现一次或多次(一个接一个)。正常的感觉总是在左边,而反向在右边。因此,我的目标是找到引物,剪切序列,只保留无引物的部分。为此,我想使用已在本机 Python 中实现的经典对齐算法(即:Smith-Waterman)(即:不是通过 biopython)。我知道这可能需要相当长的时间(最多几个小时)。

注意:这不是直接的“单词”搜索,因为序列和引物中的 DNA 可能由于各种技术原因而“突变”。

你会用什么?