379

我正在使用iTextSharp从 PDF 文件中读取文本。但是,有时我无法提取文本,因为 PDF 文件只包含图像。我每天都下载相同的PDF文件,我想看看PDF是否被修改过。如果无法获得文本和修改日期,MD5校验和是否是判断文件是否已更改的最可靠方法?

如果是,一些代码示例将不胜感激,因为我没有太多的密码学经验。

4

7 回答 7

875

使用System.Security.Cryptography.MD5非常简单:

using (var md5 = MD5.Create())
{
    using (var stream = File.OpenRead(filename))
    {
        return md5.ComputeHash(stream);
    }
}

(我相信实际上使用的 MD5 实现不需要被处理,但我可能仍然会这样做。)

之后如何比较结果取决于您;例如,您可以将字节数组转换为 base64,或直接比较字节。(请注意,数组不会覆盖Equals。使用 base64 更容易正确,但如果您真的只对比较哈希感兴趣,则效率会稍低。)

如果您需要将哈希表示为字符串,您可以使用以下命令将其转换为十六进制BitConverter

static string CalculateMD5(string filename)
{
    using (var md5 = MD5.Create())
    {
        using (var stream = File.OpenRead(filename))
        {
            var hash = md5.ComputeHash(stream);
            return BitConverter.ToString(hash).Replace("-", "").ToLowerInvariant();
        }
    }
}
于 2012-05-09T16:19:09.107 回答
74

我就是这样做的:

using System.IO;
using System.Security.Cryptography;

public string checkMD5(string filename)
{
    using (var md5 = MD5.Create())
    {
        using (var stream = File.OpenRead(filename))
        {
            return Encoding.Default.GetString(md5.ComputeHash(stream));
        }
    }
}
于 2016-01-08T00:09:32.703 回答
10

我知道这个问题已经回答了,但这就是我使用的:

using (FileStream fStream = File.OpenRead(filename)) {
    return GetHash<MD5>(fStream)
}

哪里GetHash

public static String GetHash<T>(Stream stream) where T : HashAlgorithm {
    StringBuilder sb = new StringBuilder();

    MethodInfo create = typeof(T).GetMethod("Create", new Type[] {});
    using (T crypt = (T) create.Invoke(null, null)) {
        byte[] hashBytes = crypt.ComputeHash(stream);
        foreach (byte bt in hashBytes) {
            sb.Append(bt.ToString("x2"));
        }
    }
    return sb.ToString();
}

可能不是最好的方法,但它可以很方便。

于 2016-12-21T19:16:14.343 回答
3

这是我发现的一个稍微简单的版本。它一次读取整个文件,只需要一个using指令。

byte[] ComputeHash(string filePath)
{
    using (var md5 = MD5.Create())
    {
        return md5.ComputeHash(File.ReadAllBytes(filePath));
    }
}
于 2014-12-15T10:03:06.017 回答
3

我知道我迟到了,但在实际实施解决方案之前进行了测试。

我确实对内置的 MD5 类和md5sum.exe进行了测试。在我的情况下,内置类需要 13 秒,而 md5sum.exe 每次运行也需要 16-18 秒左右。

    DateTime current = DateTime.Now;
    string file = @"C:\text.iso";//It's 2.5 Gb file
    string output;
    using (var md5 = MD5.Create())
    {
        using (var stream = File.OpenRead(file))
        {
            byte[] checksum = md5.ComputeHash(stream);
            output = BitConverter.ToString(checksum).Replace("-", String.Empty).ToLower();
            Console.WriteLine("Total seconds : " + (DateTime.Now - current).TotalSeconds.ToString() + " " + output);
        }
    }
于 2019-03-16T13:45:10.833 回答
2

如果您需要计算 MD5 以查看它是否与 Azure blob 的 MD5 匹配,那么这个 SO 问题和答案可能会有所帮助:Azure 上上传的 blob 的 MD5 哈希与本地计算机上的相同文件不匹配

于 2017-04-25T00:45:06.083 回答
0

对于动态生成的 PDF。创建日期和修改日期总是不同的。

您必须删除它们或将它们设置为恒定值。

然后生成 md5 哈希来比较哈希。

您可以使用PDFStamper删除或更新日期。

于 2021-04-01T14:24:01.657 回答