我正在研究大约 2600 多个基因组,并希望研究不同群体之间的基因组、基因和基因间特征。对于代表很少的分类群,没有问题。如果分类群有多个基因组,我应该在什么基础上删除相似的基因组,以便从每个分类群中获得几个代表。我应该使用长度或 GC% 还是其他一些特征来删除基因组 - 比如如果两个基因组的 GC% 变异小于 1%,我将删除它。诸如此类的东西。请建议接受的方式,并解释原因。
Example:
I have around 60 genomes of Mycobacterium sps
More than 20 are of M. tuberculosis alone which have
GC% range of 65.48 to 65.7 and
Length range of 4.27 to 4.41 MB
在这种情况下如何筛选和去除相似的基因组?