1

原始分段散列使用文件的固定大小段来评估散列值。而且我发现了一些分段散列,例如上下文触发分段散列使用滚动散列来触发何时评估文件的散列值。

而且我不太确定使用这种技术而不是传统技术。

4

1 回答 1

4

我假设您的意思是“上下文触发的分段散列”?

ssdeep 项目链接到 Jesse Kornblum的一篇名为“使用上下文触发分段散列法识别几乎相同的文件”的论文。该论文以垃圾邮件算法的形式介绍了 CTPH 的起源和目标。

总结一下:

  • 计算完整的文件哈希,例如通过运行sha1sum file,可以让您找到完全相同的文件对,在时间上与文件的总大小成线性关系。

  • 使用固定大小的分段进行分段散列意味着如果在文件中间重写字节,您可能仍然可以识别它与参考文件相同。但是,如果插入或删除字节,则整个文件其余部分的校验和都会更改。

  • 即使存在更大的差异,CTPH 也应该允许识别文件之间的相似性。只要更改不是太大,CTPH 就可以处理文件的插入或删除部分。该论文声称,只要给出文件的前三分之一或最后三分之一,spamsum 就可以识别它可能来自哪个文件。

于 2012-11-12T04:10:47.043 回答