bioinformatics - 获得共识序列的逻辑

Question

我有一组 fasta 格式的对齐序列。我想从对齐中获得共识。在大多数站点的情况下，基地之一显示出最大的出现率。在两个或多个碱基出现相同次数的位点的情况下，应取哪个碱基。下面给出一个例子：

>Seq_1
ATGCGA
>Seq_2
AT-CGT
>Seq_3
AT-CCG
>Seq_4
AT-CCC
>Seq_5
AA-CT-

根据惯例，这将是共识

Site      : 1 2 3 4 5     6
Consensus : A T G C [G/C] N

但是当与其他序列对齐时，共有序列的这个输出会抛出错误。那么在这种情况下应该怎么做以及如何为这些网站达成共识呢？

score 0 · Accepted Answer

您也可以在 Biostars 提出这个问题。

不过，这些都是我的建议。

1) 存在几个包来计算共有序列。使用已知的软件包可能值得。
2) 如果您想创建自己的算法，请查看 IUPAC 核苷酸代码（例如此处）。根据惯例，G/C 将由“S”表示

score 0 · Accepted Answer

大多数共识调用者会考虑质量，不仅要找到最频繁的碱基，还要找到具有最高置信度的碱基。

例如，在过去的桑格时代，执行此操作的算法是 Churchill-Waterman 共识调用算法。也有修改版本以满足您的需求（例如，没有称为歧义的版本）

2 回答 2