我想从一个文本(在我的例子中是html)中制作一种哈希键,它可以匹配/比较其他类似文本的哈希
匹配文本的前:
- “2012/10/01 这是我的网页 #1”+ 100k_of_same_text + random_words_1 + ..
- “2012/10/02 这是我的网页 #2”+ 100k_of_same_text + random_words_2 + ..
- ...
- “2012/10/02 这是我的网页 #2”+ 100k_of_same_text + random_words_3 + ..
到目前为止,我已经考虑过删除数字和标签,但这仍然会留下随机单词。
有什么东西可以剂量吗?
我对服务器具有 root 访问权限,因此我可以添加任何必要的 UDF,如果需要,我可以用 c 或其他语言进行处理。
理想的情况是一个类似的函数generateSimilarHash(text)
和一个compareSimilarHashes(hash1,hash2)
返回匹配文本的概率的函数。
像 compare(text1,text2) 这样的任何函数都不会像我的情况那样工作,因为我有很多页面要比较(目前约 2000 万)
欢迎任何建议!
更新:
我指的hash function
是维基百科上描述的:
哈希函数是将可变长度的大型数据集映射到固定长度的较小数据集的任何算法或子程序。
在我的情况下,固定长度部分不是必需的。