是否有一些散列算法可以将相似的文本文档散列到特定的散列值?
例如,
A = “这是示例文本 1” B = “这是示例文本 2”
A 和 B 需要散列到相同的值。
我做了一些研究并阅读了有关 SimHash 和 LSH 算法的信息。Simhash 会导致哈希冲突,并且可以使用汉明距离来定义相似性。
理想情况下,我想要类似“如果字符串 A 和字符串 B 相差可接受的相似性阈值 (t < tmax),则将 A 和 B 哈希为相同的哈希值。”
是否有一些散列算法可以将相似的文本文档散列到特定的散列值?
例如,
A = “这是示例文本 1” B = “这是示例文本 2”
A 和 B 需要散列到相同的值。
我做了一些研究并阅读了有关 SimHash 和 LSH 算法的信息。Simhash 会导致哈希冲突,并且可以使用汉明距离来定义相似性。
理想情况下,我想要类似“如果字符串 A 和字符串 B 相差可接受的相似性阈值 (t < tmax),则将 A 和 B 哈希为相同的哈希值。”