0

我计算校验和以与其他人进行比较并查找重复文件,但对于办公文件,共享点属性包括在内。因此,例如具有不同位置的文件没有相同的校验和。

我的想法是在内存流中打开这个文件解压缩 xml(对于 word/document.xml)并使用它来计算校验和或使用我的 zip 库的 crc 属性。通过这种方式,我不包括文档属性,而只包括内容(一部分)

它工作得很好,但对于 excel 或 powerpoint,一个文件夹中有几个文件来表示 doc 的内容。

首先你认为这是正确的方法。其次,我如何结合文件的 crc 属性来获得表示内容文件夹的 CRC。

对于 word /word
对于 Excel /xl/worksheets
对于 powerpoint ppt/slides

4

1 回答 1

0

对文件使用 CRC 哈希(剥离共享点元数据)似乎是合适的。只要 CRC 足够长,可以根据您要索引的文件数量提供统计上唯一的哈希值。

您为什么要尝试将它们组合成基于文件夹的 CRC?你打算如何将它们结合起来?如果您只想对文件夹值的 CRC 求和,我会说不能保证是唯一的。

我认为最好使用 CRC 作为键创建字典,然后简单地使用Dictionary.ContainsKey进行查找/比较

或通过Dictionary.Add捕捉 ArgumentExcptions观察重复条目(键已存在)

于 2013-10-14T18:39:08.410 回答