我有一个以000, 001, 010, 000
随机形式生成二进制输出字符串的源。
我想要一些散列或聚类程序,根据与其他输入不同的位数将输入分组,例如输入流 000、001 和 010 应该都进入同一个桶/集群,因为它们相差一点点。
我最初的想法是将输入的第一个连续位分组为一个,例如来自
000
001
010
合而为一。然后是下一个:
011
100
101
ETC
但是我很快意识到边界之间有相似之处,比如000
和1000
应该属于同一个桶,而应该属于011
不同000
的桶。
我怎么能接近这个?提示?
詹姆士