5

任务:
将大量短 DNA 片段聚集在具有共同子序列模式的类中,并找到每个类的共有序列。

  • 游泳池:约。300个序列片段
  • 每个片段 8 - 20 个字母
  • 4 个可能的字母:a,g,t,c
  • 每个片段都分为三个区域:
    1. 5个通用字母
    2. g和c的8个或更多位置
    3. 5个通用字母
      (作为正则表达式[gcta]{5}[gc]{8,}[gcta]{5}

计划:
执行多重比对(即与ClustalW2)以查找在区域2 中共享共同序列及其共有序列的类。

问题:

  1. 我的碎片是否太短,是否有助于增加它们的大小?
  2. 区域 2 是否过于同质,只有两种允许的字母类型,无法在其序列中显示模式?
  3. 您可以为这项任务推荐哪些替代方法或工具?

此致,

西蒙

4

2 回答 2

2

是的,考虑到这是人类基因组,300 太少了,你基本上只是在寻找一个特定的 8-mer。基因组中有 65,536 个可能的 8 聚体和 3,000,000,000 个独特碱基(假设您正在查看整个基因组,而不仅仅是基因或编码区域)。您会发现 G/C 包含序列 3,000,000,000 / 65,536 * 2^8 =~ 12,000,000 次(可能更多,因为与其他事物相比,基因组中充满了 CpG 岛)。为什么只选300?

您不想为此任务使用正则表达式。只需从 1 号染色体开始,寻找第一个 CG 或 GC 并延伸,直到获得第一个非 G-or-C。然后获取该序列及其上下文并将其保存(在数据库中)。冲洗并重复。

对于这个项目,Clustal 可能是矫枉过正——但我不知道你的目标,所以我不能确定。如果您只对 GC 区域感兴趣,那么您可以像这样进行一些简单的聚类:

  1. 为每个 G/C 8-mer(总共 2^8 = 256)创建一个数据库条目。
  2. 取出每个 GC 区域并步行查看它包含哪些 8-mer。
  3. 用它包含的序列标记每个 GC 区域。

现在,对于每个 8 聚体,您有数千个包含它的序列。我会将数据分析留给您自己的目标。

于 2009-11-16T05:59:13.290 回答
1

您的区域二,带有 2 个字母,最终可能有点过于相似,增加长度或可变性(例如更多字母)可能会有所帮助。

于 2009-10-02T13:17:56.020 回答