我正在寻找一种算法,最好是在 Python 中,它可以帮助我找到最接近目标字符串 N 个字符长的现有字符串的子字符串(N 个字符长)。
考虑目标字符串,即 4 个字符长,为:
targetString -> '1111'
假设这是我可以使用的字符串(我将生成它的子字符串以进行“最佳对齐”匹配):
nonEmptySubStrings -> ['110101']
上述 4 个字符长的子字符串:
nGramsSubStrings -> ['0101', '1010', '1101']
我想编写/使用一个“魔术函数”来选择最接近 targetString 的字符串:
someMagicFunction -> ['1101']
更多示例:
nonEmptySubStrings -> ['101011']
nGramsSubStrings -> ['0101', '1010', '1011']
someMagicFunction -> ['1011']
nonEmptySubStrings -> ['10101']
nGramsSubStrings -> ['0101', '1010']
someMagicFunction -> ['0101', '1010']
这个“魔术函数”是一个众所周知的子字符串问题吗?
我真的很想找到分钟。nonEmptySubStrings 中的更改次数,以便它将 targetString 作为子字符串。