string - 根据常见的子模式对短的、同质的字符串 (DNA) 进行聚类并提取类的共识

Question

任务：
将大量短 DNA 片段聚集在具有共同子序列模式的类中，并找到每个类的共有序列。

游泳池：约。300个序列片段
每个片段 8 - 20 个字母
4 个可能的字母：a,g,t,c
每个片段都分为三个区域：
1. 5个通用字母
2. g和c的8个或更多位置
3. 5个通用字母
  （作为正则表达式[gcta]{5}[gc]{8,}[gcta]{5}）

计划：
执行多重比对（即与ClustalW2）以查找在区域2 中共享共同序列及其共有序列的类。

问题：

我的碎片是否太短，是否有助于增加它们的大小？
区域 2 是否过于同质，只有两种允许的字母类型，无法在其序列中显示模式？
您可以为这项任务推荐哪些替代方法或工具？

此致，

西蒙

score 2 · Accepted Answer

是的，考虑到这是人类基因组，300 太少了，你基本上只是在寻找一个特定的 8-mer。基因组中有 65,536 个可能的 8 聚体和 3,000,000,000 个独特碱基（假设您正在查看整个基因组，而不仅仅是基因或编码区域）。您会发现 G/C 包含序列 3,000,000,000 / 65,536 * 2^8 =~ 12,000,000 次（可能更多，因为与其他事物相比，基因组中充满了 CpG 岛）。为什么只选300？

您不想为此任务使用正则表达式。只需从 1 号染色体开始，寻找第一个 CG 或 GC 并延伸，直到获得第一个非 G-or-C。然后获取该序列及其上下文并将其保存（在数据库中）。冲洗并重复。

对于这个项目，Clustal 可能是矫枉过正——但我不知道你的目标，所以我不能确定。如果您只对 GC 区域感兴趣，那么您可以像这样进行一些简单的聚类：

为每个 G/C 8-mer（总共 2^8 = 256）创建一个数据库条目。
取出每个 GC 区域并步行查看它包含哪些 8-mer。
用它包含的序列标记每个 GC 区域。

现在，对于每个 8 聚体，您有数千个包含它的序列。我会将数据分析留给您自己的目标。

score 1 · Accepted Answer

您的区域二，带有 2 个字母，最终可能有点过于相似，增加长度或可变性（例如更多字母）可能会有所帮助。

string - 根据常见的子模式对短的、同质的字符串 (DNA) 进行聚类并提取类的共识

2 回答 2

Related

Reference