问题标签 [dna-sequence]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - 生成具有替换率的合成 DNA 序列
鉴于这些输入:
我想生成:
一千个长度 - 10 个标签
标签中每个位置的替换率是 0.003
产生输出如:
在 Perl 中有一种紧凑的方法吗?
我坚持将此脚本的逻辑作为核心:
python - 寻找优雅的球状 DNA 字符串扩展
我正在尝试对一组具有多个可能碱基的 DNA 字符串进行类似球状的扩展。
我的 DNA 字符串的碱基包含字母 A、C、G 和 T。但是,我可以有特殊字符,例如 M,可以是 A 或 C。
例如,假设我有字符串:
ATMM
我想将此字符串作为输入并输出四个可能的匹配字符串:
ATAA
ATAC
ATCA
ATCC
我觉得必须有一些优雅的 Python/Perl/正则表达式技巧才能做到这一点,而不是蛮力解决方案。
谢谢你的任何建议。
编辑,感谢 cortex 的产品运营商。这是我的解决方案:
仍然是 Python 新手,所以我敢打赌,处理每个字典键的方法比另一个 for 循环更好。任何建议都会很棒。
perl - Perl递归技术?
我需要一些帮助是这段代码。我知道应该递归的部分,或者至少我认为我知道但不确定如何实现它。我正在尝试从对齐矩阵中实现寻路程序,该程序将找到返回零值的多条路线。例如,如果您执行我的代码并插入 CGCA 作为第一个序列,将 CACGTAT 作为第二个序列,以及 1、0 和 -1 作为匹配、不匹配和差距分数。该程序给出的路径为 HDHHDD,对齐方式为
CACGTAT
CGC--A-。
然而,除了我不知道有多少之外,还有更多可能的路径和路线。我想要做的是让我的一段代码自行循环并找到其他路径和对齐方式,使用与第一次相同的代码,直到它用完可能的对齐方式。我在网上找到的最好的方法是递归,除了没有人能解释如何做到这一点。在这种情况下,应该有另外两条路径和对齐方式 HDDDHHD 和 CACGTAT 以及 C--GCA- 和。HDDDDHH、CACGTAT 和--CGCA-。我只是不知道如何编写代码来执行此任务。
如果有人想知道这是一种needleman-wunsch 算法。这里的任何帮助都会非常感激。
string - 根据常见的子模式对短的、同质的字符串 (DNA) 进行聚类并提取类的共识
任务:
将大量短 DNA 片段聚集在具有共同子序列模式的类中,并找到每个类的共有序列。
- 游泳池:约。300个序列片段
- 每个片段 8 - 20 个字母
- 4 个可能的字母:a,g,t,c
- 每个片段都分为三个区域:
- 5个通用字母
- g和c的8个或更多位置
- 5个通用字母
(作为正则表达式[gcta]{5}[gc]{8,}[gcta]{5}
)
计划:
执行多重比对(即与ClustalW2)以查找在区域2 中共享共同序列及其共有序列的类。
问题:
- 我的碎片是否太短,是否有助于增加它们的大小?
- 区域 2 是否过于同质,只有两种允许的字母类型,无法在其序列中显示模式?
- 您可以为这项任务推荐哪些替代方法或工具?
此致,
西蒙
ruby - 从几个给定的集合中生成所有可能的 dna 序列
我一直在尝试解决这个问题一段时间,但一直未能找到一个好的解决方案。开始:
给定多个集合:
我想从集合列表中生成所有可能的序列。在这个例子中,序列的长度是 5,但它可以是大约 20 左右的任何长度。对于位置 1,可能的候选者分别是“A”和“T”,对于位置 2,唯一的选项是“C”,所以在。
上面例子的答案是:
ACATG, ACCTG, ACGTG, TCATG, TCCTG, TCGTG
我在 ruby 中执行此操作,并且我将不同的集合作为主数组中的数组:
起初我认为递归解决方案是最好的,但我无法弄清楚如何正确设置它。
我的第二个想法是创建另一个相同大小的数组,每个数组都有一个索引。因此 00000 将对应于“ACATG”上方的第一个序列,而 10200 将对应于“TCGTG”。从 00000 开始,我会将最后一个索引增加 1,并将其与相关集合的长度取模(set1 为 2,set2 为 1),如果计数器环绕,我会将其归零并将前一个索引增加一个。
但是我对这个解决方案的思考越多,对于这个非常小的问题来说似乎太复杂了。必须有一个我缺少的更直接的解决方案。谁能帮帮我?
/缺口
database - 擅长存储生物序列的商业数据库
哪些商业数据库擅长存储蛋白质/DNA序列等生物序列?有没有专门为存储这些序列而设计的?
干杯
python - 用于微阵列数据的稳健多阵列平均值的 python 脚本
我试过谷歌但没有运气。我已经看到一些对使用 python 完成的健壮多数组平均但没有代码的弱引用。我对重新发明轮子没那么感兴趣。关于 python 模块、脚本的任何建议....
如果我能找到一个很好的解释或算法示例,我会编写一个 python 实现来分享。
如果你不确定我在说什么,你可以看看这个,尽管这不是定义。 http://www.mathworks.com/access/helpdesk/help/toolbox/bioinfo/ref/gcrma.html
python - 原生 Python 中的 DNA 序列比对(无 biopython)
我有一个有趣的遗传学问题,我想在原生 Python 中解决(标准库之外没有)。这是为了使该解决方案在任何计算机上都非常易于使用,而无需用户安装额外的模块。
这里是。我从 454 次新一代测序运行中收到了 100,000 条 DNA 序列(最多 20 亿条)。我想修剪四肢以去除两端可能存在的引物,包括正常序列和有义序列。例子:
引物可以出现一次或多次(一个接一个)。正常的感觉总是在左边,而反向在右边。因此,我的目标是找到引物,剪切序列,只保留无引物的部分。为此,我想使用已在本机 Python 中实现的经典对齐算法(即:Smith-Waterman)(即:不是通过 biopython)。我知道这可能需要相当长的时间(最多几个小时)。
注意:这不是直接的“单词”搜索,因为序列和引物中的 DNA 可能由于各种技术原因而“突变”。
你会用什么?