我想计算一长串序列之间的成对差异的数量,并将其放回矩阵形式。
我有几百个基因序列,每个序列已经对齐并且长度相同(大约 300 个字符)。我不是在寻找一种编辑距离算法(汉明、莱文斯坦等),而是想获得两个序列之间绝对差异的数量。必须在每个字符位置比较序列。
例如,
Sequence 1: "GAT-ACA"
Sequence 2: "AT-GCGA"
Number of differences: 6
(破折号允许序列对齐,我的序列也可能包括破折号)。
是否有任何有效的方法可以使用 python(或其他语言)在很短的计算时间内做到这一点?我也在 R 中问过这个问题,最初打算这样做,但结果太慢,无法应用于数百个序列。
谢谢!