任务:
将大量短 DNA 片段聚集在具有共同子序列模式的类中,并找到每个类的共有序列。
- 游泳池:约。300个序列片段
- 每个片段 8 - 20 个字母
- 4 个可能的字母:a,g,t,c
- 每个片段都分为三个区域:
- 5个通用字母
- g和c的8个或更多位置
- 5个通用字母
(作为正则表达式[gcta]{5}[gc]{8,}[gcta]{5}
)
计划:
执行多重比对(即与ClustalW2)以查找在区域2 中共享共同序列及其共有序列的类。
问题:
- 我的碎片是否太短,是否有助于增加它们的大小?
- 区域 2 是否过于同质,只有两种允许的字母类型,无法在其序列中显示模式?
- 您可以为这项任务推荐哪些替代方法或工具?
此致,
西蒙