我有一个 MongoDB,里面有大约 100 万个文档。这些文档都有一个字符串,表示 1 和 0 的 256 位二进制文件,例如:
0110101010101010110101010101
理想情况下,我想查询接近二元匹配。这意味着,如果两个文档具有以下编号。是的,这就是汉明距离。
Mongo 目前不支持此功能。所以,我被迫在应用层做这件事。
因此,鉴于此,我试图找到一种方法来避免在文档之间进行单独的汉明距离比较。这使得做这件事的时间基本上是不可能的。
我有很多内存。而且,在 ruby 中,似乎有一个很棒的宝石(算法)可以创建许多树,但我似乎都无法完成(但)这会减少我需要进行的查询数量。
理想情况下,我想进行 100 万次查询,找到几乎重复的字符串,并能够更新它们以反映这一点。
任何人的想法将不胜感激。