我希望能够将二进制文件 X 与其他二进制文件的目录进行比较,并找到与 X 最相似的其他文件。数据的性质是,文件之间将存在相同的块,但可能会在位置上移动. 这些文件都是 1MB 大小,大约有 200 个。我希望能够在几分钟或更短的时间内在现代台式计算机上快速分析这些内容。我搜索了一下,发现了一些不同的二进制差异实用程序,但它们似乎都不适合我的应用程序。
例如,有 bsdiff,它看起来像是创建了一些针对大小进行了优化的补丁文件。或仅以图形方式显示差异的 vbindiff,但这些似乎并不能帮助我确定一个文件是否比另一个文件更类似于 X。
如果没有可以直接用于此目的的工具,是否有人可以推荐一个好的库来编写我自己的实用程序?Python会更好,但我很灵活。