python - Needleman-Wunsch 实现在 cogent 和 skbio 中给出了不同的对齐方式

Question

与您从 pycogent 中的实现获得的结果相比，skbio 中的实现给出了一个奇怪的结果。

from cogent.align.algorithm import nw_align as nw_align_cogent
from skbio.alignment import global_pairwise_align_nucleotide as nw_align_scikit

seq_1 = 'ATCGATCGATCG'
seq_2 = 'ATCGATATCGATCG'

print "Sequences: "
print "     %s" % seq_1
print "     %s" % seq_2
print

alignment = nw_align_scikit(seq_1, seq_2)
al_1, al_2 = [alignment.get_seq(_id).__str__() for _id in alignment.ids()]

print "    nw alignment using scikit:"
print "        %s" % al_1
print "        %s" % al_2
print

al_1, al_2 = nw_align_cogent(seq_1, seq_2)

print "    nw alignment using cogent:"
print "        %s" % al_1
print "        %s" % al_2
print

输出如下所示：

nw alignment using scikit:
    ------ATCGATCGATCG
    ATCGATATCGATCG----

nw alignment using cogent:
    ATCGAT--CGATCG
    ATCGATATCGATCG

score 4 · Accepted Answer

这是一个很好的问题，并且与 scikit-bio 和 PyCogent 中对齐方式评分的差异有关。默认情况下，在 scikit-bio 中，终端间隙不会受到惩罚，因为这会导致一些非常奇怪的对齐。此处简要讨论了此问题并在此处进行了说明（请参阅笔记本的最后一个单元格）。

如果您想实现更类似于 PyCogent 中的解决方案，您可以传递penalize_terminal_gaps=True如下global_pairwise_align_nucleotide：

alignment = nw_align_scikit(seq_1, seq_2, penalize_terminal_gaps=True)
al_1, al_2 = [alignment.get_seq(_id).__str__() for _id in alignment.ids()]

print "    nw alignment using scikit:"
print "        %s" % al_1
print "        %s" % al_2

输出：

nw alignment using scikit:
        ATCG--ATCGATCG
        ATCGATATCGATCG

您会注意到对齐方式仍然与您从 PyCogent 获得的对齐方式不同，但这是一个微小的实现差异：两个结果对齐方式具有相同的分数（不同之处在于--对齐到第一个AT还是第二AT个重复），并且这ATAT两个实现在如何打破这种关系方面做出了不同的选择。

如果您返回到您发布的对齐方式（来自 scikit-bio 的默认值），您会注意到返回的对齐方式非常好 - 事实上，如果不惩罚终端间隙，它是最佳得分对齐方式（根据定义，因为最佳得分对齐是它返回的内容）。但是，您说得对，这很奇怪，因为 scikit-bio 在这种特定情况下返回的对齐可能不是最具生物学相关性的对齐。如果您知道您的序列都从同一位置开始并在同一位置结束，您可以通过penalize_terminal_gaps=True. 但是，您的只是一个玩具示例，并且在大多数情况下使用真实序列，我认为最生物学相关的比对将使用默认参数返回。

python - Needleman-Wunsch 实现在 cogent 和 skbio 中给出了不同的对齐方式

1 回答 1

Related

Reference