“dna-sequence”的相关标签问题

0 投票

5 回答

933 浏览

perl - 生成具有替换率的合成 DNA 序列

鉴于这些输入：

我想生成：

一千个长度 - 10 个标签
标签中每个位置的替换率是 0.003

产生输出如：

在 Perl 中有一种紧凑的方法吗？

我坚持将此脚本的逻辑作为核心：

foolishbrat

2009-03-02T09:19:34.653

0 投票

5 回答

638 浏览

python - 寻找优雅的球状 DNA 字符串扩展

我正在尝试对一组具有多个可能碱基的 DNA 字符串进行类似球状的扩展。

我的 DNA 字符串的碱基包含字母 A、C、G 和 T。但是，我可以有特殊字符，例如 M，可以是 A 或 C。

例如，假设我有字符串：

ATMM

我想将此字符串作为输入并输出四个可能的匹配字符串：

ATAA ATAC ATCA ATCC

我觉得必须有一些优雅的 Python/Perl/正则表达式技巧才能做到这一点，而不是蛮力解决方案。

谢谢你的任何建议。

编辑，感谢 cortex 的产品运营商。这是我的解决方案：

仍然是 Python 新手，所以我敢打赌，处理每个字典键的方法比另一个 for 循环更好。任何建议都会很棒。

python permutation glob dna-sequence

2009-07-08T14:28:03.000

0 投票

3 回答

2671 浏览

perl - Perl递归技术？

我需要一些帮助是这段代码。我知道应该递归的部分，或者至少我认为我知道但不确定如何实现它。我正在尝试从对齐矩阵中实现寻路程序，该程序将找到返回零值的多条路线。例如，如果您执行我的代码并插入 CGCA 作为第一个序列，将 CACGTAT 作为第二个序列，以及 1、0 和 -1 作为匹配、不匹配和差距分数。该程序给出的路径为 HDHHDD，对齐方式为

CACGTAT

CGC--A-。

然而，除了我不知道有多少之外，还有更多可能的路径和路线。我想要做的是让我的一段代码自行循环并找到其他路径和对齐方式，使用与第一次相同的代码，直到它用完可能的对齐方式。我在网上找到的最好的方法是递归，除了没有人能解释如何做到这一点。在这种情况下，应该有另外两条路径和对齐方式 HDDDHHD 和 CACGTAT 以及 C--GCA- 和。HDDDDHH、CACGTAT 和--CGCA-。我只是不知道如何编写代码来执行此任务。

如果有人想知道这是一种needleman-wunsch 算法。这里的任何帮助都会非常感激。

perl algorithm alignment bioinformatics dna-sequence

user175537

2009-09-18T13:33:56.637

0 投票

2 回答

536 浏览

string - 根据常见的子模式对短的、同质的字符串 (DNA) 进行聚类并提取类的共识

任务：
将大量短 DNA 片段聚集在具有共同子序列模式的类中，并找到每个类的共有序列。

游泳池：约。300个序列片段
每个片段 8 - 20 个字母
4 个可能的字母：a,g,t,c
每个片段都分为三个区域：
1. 5个通用字母
2. g和c的8个或更多位置
3. 5个通用字母
  （作为正则表达式[gcta]{5}[gc]{8,}[gcta]{5}）

计划：
执行多重比对（即与ClustalW2）以查找在区域2 中共享共同序列及其共有序列的类。

问题：

我的碎片是否太短，是否有助于增加它们的大小？
区域 2 是否过于同质，只有两种允许的字母类型，无法在其序列中显示模式？
您可以为这项任务推荐哪些替代方法或工具？

此致，

西蒙

string cluster-analysis bioinformatics dna-sequence

2009-10-02T12:50:26.867

0 投票

2 回答

1212 浏览

perl - 如何使用替换矩阵修改 Smith-Waterman 算法以在 Perl 中对齐蛋白质？

如何使用替换矩阵修改Smith-Waterman 算法以在 Perl 中对齐蛋白质？

[需要引用]

perl algorithm math dna-sequence bioperl

2009-11-09T17:38:49.583

0 投票

1 回答

496 浏览

ruby - 从几个给定的集合中生成所有可能的 dna 序列

我一直在尝试解决这个问题一段时间，但一直未能找到一个好的解决方案。开始：

给定多个集合：

我想从集合列表中生成所有可能的序列。在这个例子中，序列的长度是 5，但它可以是大约 20 左右的任何长度。对于位置 1，可能的候选者分别是“A”和“T”，对于位置 2，唯一的选项是“C”，所以在。

上面例子的答案是：

ACATG, ACCTG, ACGTG, TCATG, TCCTG, TCGTG

我在 ruby 中执行此操作，并且我将不同的集合作为主数组中的数组：

起初我认为递归解决方案是最好的，但我无法弄清楚如何正确设置它。

我的第二个想法是创建另一个相同大小的数组，每个数组都有一个索引。因此 00000 将对应于“ACATG”上方的第一个序列，而 10200 将对应于“TCGTG”。从 00000 开始，我会将最后一个索引增加 1，并将其与相关集合的长度取模（set1 为 2，set2 为 1），如果计数器环绕，我会将其归零并将前一个索引增加一个。

但是我对这个解决方案的思考越多，对于这个非常小的问题来说似乎太复杂了。必须有一个我缺少的更直接的解决方案。谁能帮帮我？

/缺口

ruby set cartesian-product dna-sequence

2009-11-24T15:58:01.397

0 投票

10 回答

1256 浏览

database - 是否有任何现有的解决方案可以使用网站前端创建通用 DNA 序列数据库？

我想为我工作的实验室创建一个带有网络前端的 rRNA 序列数据库。在生物学中，使用 BLAST 和 HMMER 等比对算法搜索大量序列似乎很常见，所以我想知道是否有是否有任何现有的 php/python/rails 项目允许使用网站搜索表单轻松创建通用序列数据库？

更新：GMOD是我正在寻找的服务器类型。我还被建议看一下BioMart，它看起来也有类似的功能。

database search web bioinformatics dna-sequence

2009-12-11T19:19:40.243

0 投票

2 回答

108 浏览

database - 擅长存储生物序列的商业数据库

哪些商业数据库擅长存储蛋白质/DNA序列等生物序列？有没有专门为存储这些序列而设计的？

干杯

database dna-sequence protein-database

2010-02-04T17:47:41.840

0 投票

3 回答

1511 浏览

python - 用于微阵列数据的稳健多阵列平均值的 python 脚本

我试过谷歌但没有运气。我已经看到一些对使用 python 完成的健壮多数组平均但没有代码的弱引用。我对重新发明轮子没那么感兴趣。关于 python 模块、脚本的任何建议....

如果我能找到一个很好的解释或算法示例，我会编写一个 python 实现来分享。

如果你不确定我在说什么，你可以看看这个，尽管这不是定义。 http://www.mathworks.com/access/helpdesk/help/toolbox/bioinfo/ref/gcrma.html

python arrays bioinformatics dna-sequence

2010-02-18T23:55:40.107

0 投票

3 回答

2715 浏览

python - 原生 Python 中的 DNA 序列比对（无 biopython）

我有一个有趣的遗传学问题，我想在原生 Python 中解决（标准库之外没有）。这是为了使该解决方案在任何计算机上都非常易于使用，而无需用户安装额外的模块。

这里是。我从 454 次新一代测序运行中收到了 100,000 条 DNA 序列（最多 20 亿条）。我想修剪四肢以去除两端可能存在的引物，包括正常序列和有义序列。例子：

引物可以出现一次或多次（一个接一个）。正常的感觉总是在左边，而反向在右边。因此，我的目标是找到引物，剪切序列，只保留无引物的部分。为此，我想使用已在本机 Python 中实现的经典对齐算法（即：Smith-Waterman）（即：不是通过 biopython）。我知道这可能需要相当长的时间（最多几个小时）。

注意：这不是直接的“单词”搜索，因为序列和引物中的 DNA 可能由于各种技术原因而“突变”。

你会用什么？

python alignment dna-sequence genetics

2010-03-10T19:50:29.800

问题标签 [dna-sequence]

Reference