0

我正在研究大约 2600 多个基因组,并希望研究不同群体之间的基因组、基因和基因间特征。对于代表很少的分类群,没有问题。如果分类群有多个基因组,我应该在什么基础上删除相似的基因组,以便从每个分类群中获得几个代表。我应该使用长度或 GC% 还是其他一些特征来删除基因组 - 比如如果两个基因组的 GC% 变异小于 1%,我将删除它。诸如此类的东西。请建议接受的方式,并解释原因。

Example:
I have around 60 genomes of Mycobacterium sps
More than 20 are of M. tuberculosis alone which have
GC% range of 65.48 to 65.7 and
Length range of 4.27 to 4.41 MB

在这种情况下如何筛选和去除相似的基因组?

4

2 回答 2

0

我认为没有理由使用 GC % 作为可接受的过滤器。

对我来说有意义的是一种更具功能性的方法,例如 1) 共享基因,以及 2) 所述基因的序列相似性。

于 2013-09-30T19:11:27.307 回答
0

您可以先构建系统发育树,然后为每个(或多或少任意定义的)进化枝/组/簇选择一个或多个基因组。

我不建议使用单个标记基因来构建树,因为在您的情况下,这些基因组/物种是非常密切相关的。尝试串联所有核心基因集。

于 2013-10-03T17:25:13.160 回答