0

我有一组 fasta 格式的对齐序列。我想从对齐中获得共识。在大多数站点的情况下,基地之一显示出最大的出现率。在两个或多个碱基出现相同次数的位点的情况下,应取哪个碱基。下面给出一个例子:

>Seq_1
ATGCGA
>Seq_2
AT-CGT
>Seq_3
AT-CCG
>Seq_4
AT-CCC
>Seq_5
AA-CT-

根据惯例,这将是共识

Site      : 1 2 3 4 5     6
Consensus : A T G C [G/C] N

但是当与其他序列对齐时,共有序列的这个输出会抛出错误。那么在这种情况下应该怎么做以及如何为这些网站达成共识呢?

4

2 回答 2

0

您也可以在 Biostars 提出这个问题。

不过,这些都是我的建议。

1) 存在几个包来计算共有序列。使用已知的软件包可能值得。
2) 如果您想创建自己的算法,请查看 IUPAC 核苷酸代码(例如此处)。根据惯例,G/C 将由“S”表示

于 2013-10-24T13:42:22.177 回答
0

大多数共识调用者会考虑质量,不仅要找到最频繁的碱基,还要找到具有最高置信度的碱基。

例如,在过去的桑格时代,执行此操作的算法是 Churchill-Waterman 共识调用算法。也有修改版本以满足您的需求(例如,没有称为歧义的版本)

于 2013-10-25T19:08:07.557 回答