我想测试第 3 方(包括“闭源”)工具(如同步、重复数据删除......)在存在具有相同大小和摘要校验和的文件(流行的 CRC32、MD5、SHA-1 .. 。 ETC)。其中一些散列方法具有已知的漏洞,因此存在产生冲突的方法。
您是否知道此类数据集的来源(除了蛮力尝试创建一些:))或用于创建此类数据集的生成器吗?
为了明确这一点:我对具有相同校验和、文件大小但内容不同的文件集感兴趣!
我想测试第 3 方(包括“闭源”)工具(如同步、重复数据删除......)在存在具有相同大小和摘要校验和的文件(流行的 CRC32、MD5、SHA-1 .. 。 ETC)。其中一些散列方法具有已知的漏洞,因此存在产生冲突的方法。
您是否知道此类数据集的来源(除了蛮力尝试创建一些:))或用于创建此类数据集的生成器吗?
为了明确这一点:我对具有相同校验和、文件大小但内容不同的文件集感兴趣!
我们知道 md5 的弱点:
2005 年,研究人员能够创建具有相同散列的 PostScript 文档 [24] 和 X.509 证书 [25] 对。那年晚些时候,MD5 的设计师 Ron Rivest 写道,“md5 和 sha1 都明显坏了(就抗碰撞性而言)。”[26]
来源:http ://en.wikipedia.org/wiki/MD5
我们可以在那里(在维基百科上)和以下 SO 主题中找到:
示例对。
问题仍然存在 -> 关于好的数据集,还有更多示例。(或不错的发电机)。