此处定义的二进制字符串是固定大小的位“数组”。我称它们为字符串,因为它们没有顺序(将它们排序/索引为数字没有意义),每一位都独立于其他位。每个这样的字符串都有 N 位长,其中 N 为数百。
我需要存储这些字符串,并使用汉明距离作为距离度量,为最近的邻居提供一个新的二进制字符串查询。
基于度量的搜索(VP-trees、cover-trees、M-trees)有专门的数据结构(metric-trees),但我需要使用常规数据库(在我的例子中是 MongoDB)。
是否有一些索引功能可以应用于二进制字符串,可以帮助数据库在执行一对一的汉明距离匹配之前只访问记录的子集?或者,如何在标准数据库上实现这种基于汉明的搜索?