5

我正在尝试设计一个简单的应用程序来计算文件的 CRC32/md5/sha1/sha256/sha384/sha512,但我遇到了一些障碍。这是在 C# 中完成的。

我希望能够尽可能高效地做到这一点,所以我最初的想法是在处理之前先将文件读入内存流,但我很快发现非常大的文件会导致我很快耗尽内存。所以看来我必须改用文件流。正如我所看到的,问题是一次只能运行一个哈希函数,并且使用文件流这样做需要一段时间才能完成每个哈希。

我该如何将文件的一小部分读入内存,使用所有 6 种算法对其进行处理,然后再进入另一个块……或者散列不是那样工作的?

这是我最初尝试将文件读入内存。当我在内存流上运行散列算法之前尝试将 CD 映像读入内存时,它失败了:

    private void ReadToEndOfFile(string filename)
    {
        if (File.Exists(filename))
        {
            FileInfo fi = new FileInfo(filename);
            FileStream fs = new FileStream(filename, FileMode.Open, FileAccess.Read);
            byte[] buffer = new byte[16 * 1024];

            //double step = Math.Floor((double)fi.Length / (double)100);

            this.toolStripStatusLabel1.Text = "Reading File...";
            this.toolStripProgressBar1.Maximum = (int)(fs.Length / buffer.Length);
            this.toolStripProgressBar1.Value = 0;

            using (MemoryStream ms = new MemoryStream())
            {
                int read;
                while ((read = fs.Read(buffer, 0, buffer.Length)) > 0)
                {
                    ms.Write(buffer, 0, read);
                    this.toolStripProgressBar1.Value += 1;
                }

                _ms = ms;
            }
        }
    }
4

3 回答 3

4

哈希算法的设计方式可以让您逐步计算哈希值。您可以在此处找到 C#/.NET 示例。您可以轻松地修改提供的代码以在每个步骤中更新多个哈希算法实例。

于 2012-04-26T15:30:33.853 回答
4

您已经完成了大部分工作,您只是不需要一次将整个内容读入内存。

.Net 中的所有哈希都派生自HashAlgorithm类。这有两种方法:TransformBlockTransformFinalBlock. 因此,您应该能够为您的文件读取一个块,将其填充到您要使用的任何散列的 TransformBlock 方法中,然后进入下一个块。只要记住从文件中调用TransformFinalBlock你的最后一个块,因为这就是你得到包含哈希的字节数组的原因。

现在,我一次只做一个哈希,直到它工作,然后担心同时运行哈希(使用任务并行库之类的东西)

于 2012-04-26T15:32:47.680 回答
-1

这可能是让您了解 TPL 数据流对象的绝佳机会。在一个线程中读取文件并将数据发布到BroadcastBlock<T>. 将BroadcastBlock<T>链接到 6 个不同的ActionBlock<T>实例。每个ActionBlock<T>将对应于您的 6 个哈希策略之一。

var broadcast = new BroadcastBlock<byte[]>(x => x);

var strategy1 = new ActionBlock<byte[]>(input => DoHash(input, SHA1.Create()));
var strategy2 = new ActionBlock<byte[]>(input => DoHash(input, MD5.Create()));
// Create the other 4 strategies.

broadcast.LinkTo(strategy1);
broadcast.LinkTo(strategy2);
// Link the other 4.

using (var fs = File.Open(@"yourfile.txt", FileMode.Open, FileAccess.Read))
using (var br = new BinaryReader(fs))
{
  while (br.PeekChar() != -1)
  {
    broadcast.Post(br.ReadBytes(1024 * 16));
  }
}

会将每个BroadcastBlock<T>数据块转发到所有链接的ActionBlock<T>实例。

由于您的问题更多地集中在如何让这一切同时发生,我将把实施留给DoHash您。

private void DoHash(byte[] input, HashAlgorithm algorithm)
{
  // You will need to implement this.
}
于 2012-04-26T16:38:08.323 回答