我计算校验和以与其他人进行比较并查找重复文件,但对于办公文件,共享点属性包括在内。因此,例如具有不同位置的文件没有相同的校验和。
我的想法是在内存流中打开这个文件解压缩 xml(对于 word/document.xml)并使用它来计算校验和或使用我的 zip 库的 crc 属性。通过这种方式,我不包括文档属性,而只包括内容(一部分)
它工作得很好,但对于 excel 或 powerpoint,一个文件夹中有几个文件来表示 doc 的内容。
首先你认为这是正确的方法。其次,我如何结合文件的 crc 属性来获得表示内容文件夹的 CRC。
对于 word /word
对于 Excel /xl/worksheets
对于 powerpoint ppt/slides