对于我正在研究的问题,找到两个序列之间的距离以确定它们的相似性,序列顺序非常重要。但是,我拥有的序列的长度并不完全相同,因此我用空点填充任何有缺陷的字符串,以便两个序列的长度相同,以满足汉明距离要求。我这样做有什么大问题吗,因为我只关心换位的数量(而不是像 Levenshtein 那样的插入或删除)?
我发现汉明距离比 Levenshtein 快得多,作为更长长度序列的距离度量。什么时候应该使用 Levenshtein 距离(或 Levenshtein 距离的衍生物)而不是便宜得多的汉明距离?汉明距离可以被认为是两个序列之间可能的 Levenshtein 距离的上限,所以如果我比较两个序列的顺序偏差相似性度量,而不是匹配序列的绝对最小移动次数,则没有明显的我选择 Levenshtein 而不是 Hamming 作为指标的原因,有吗?