c# - C# 和 .NET：stackalloc

Question

我对操作员的功能有几个问题stackalloc。

它实际上是如何分配的？我认为它做了类似的事情：
```
void* stackalloc(int sizeInBytes)
{
    void* p = StackPointer (esp);
    StackPointer += sizeInBytes;
    if(StackPointer exceeds stack size)
        throw new StackOverflowException(...);
    return p;
}
```
但是我做了一些测试，我不确定它是如何工作的。我们不能确切地知道它做了什么以及它是如何做的，但我想知道基础知识。

我认为堆栈分配（嗯，我确实很确定）比堆分配快。那么为什么这个例子：

 class Program
 {
     static void Main(string[] args)
     {
         Stopwatch sw1 = new Stopwatch();
         sw1.Start();
         StackAllocation();
         Console.WriteLine(sw1.ElapsedTicks);

         Stopwatch sw2 = new Stopwatch();
         sw2.Start();
         HeapAllocation();
         Console.WriteLine(sw2.ElapsedTicks);
     }
     static unsafe void StackAllocation()
     {
         for (int i = 0; i < 100; i++)
         {
             int* p = stackalloc int[100];
         }
     }
     static void HeapAllocation()
     {
         for (int i = 0; i < 100; i++)
         {
             int[] a = new int[100];
         }
     }
 }

给出堆栈分配 280~ 滴答的平均结果，而堆分配通常是1-0 滴答？（在我的个人电脑上，英特尔酷睿 i7）。

在我现在使用的计算机（Intel Core 2 Duo）上，结果比之前的更有意义（可能是因为优化代码没有在 VS 中检查）： 堆栈分配 460~ 滴答，堆分配约380 滴答。

但这仍然没有意义。为什么会这样？我猜CLR注意到我们不使用数组，所以它甚至没有分配它？

score 11 · Accepted Answer

stackalloc 更快的情况：

 private static volatile int _dummy; // just to avoid any optimisations
                                         // that have us measuring the wrong
                                         // thing. Especially since the difference
                                         // is more noticable in a release build
                                         // (also more noticable on a multi-core
                                         // machine than single- or dual-core).
 static void Main(string[] args)
 {
     System.Diagnostics.Stopwatch sw1 = new System.Diagnostics.Stopwatch();
     Thread[] threads = new Thread[20];
     sw1.Start();
     for(int t = 0; t != 20; ++t)
     {
        threads[t] = new Thread(DoSA);
        threads[t].Start();
     }
     for(int t = 0; t != 20; ++t)
        threads[t].Join();
     Console.WriteLine(sw1.ElapsedTicks);

     System.Diagnostics.Stopwatch sw2 = new System.Diagnostics.Stopwatch();
     threads = new Thread[20];
     sw2.Start();
     for(int t = 0; t != 20; ++t)
     {
        threads[t] = new Thread(DoHA);
        threads[t].Start();
     }
     for(int t = 0; t != 20; ++t)
        threads[t].Join();
     Console.WriteLine(sw2.ElapsedTicks);
     Console.Read();
 }
 private static void DoSA()
 {
    Random rnd = new Random(1);
    for(int i = 0; i != 100000; ++i)
        StackAllocation(rnd);
 }
 static unsafe void StackAllocation(Random rnd)
 {
    int size = rnd.Next(1024, 131072);
    int* p = stackalloc int[size];
    _dummy = *(p + rnd.Next(0, size));
 }
 private static void DoHA()
 {
    Random rnd = new Random(1);
    for(int i = 0; i != 100000; ++i)
        HeapAllocation(rnd);
 }
 static void HeapAllocation(Random rnd)
 {
    int size = rnd.Next(1024, 131072);
    int[] a = new int[size];
    _dummy = a[rnd.Next(0, size)];
 }

此代码与问题中的代码之间的重要区别：

我们有几个线程在运行。通过堆栈分配，它们在自己的堆栈中进行分配。使用堆分配，它们是从与其他线程共享的堆中分配的。
分配了更大的尺寸。
每次分配不同的大小（尽管我播种了随机生成器以使测试更具确定性）。这使得堆碎片更有可能发生，使得堆分配的效率低于每次相同的分配。

除此之外，还值得注意的是，它stackalloc通常用作将fixed数组固定在堆上的替代方法。固定数组不利于堆性能（不仅对于该代码，而且对于使用相同堆的其他线程），因此如果声明的内存将在任何合理的时间内使用，那么性能影响会更大。

虽然我的代码演示了一个stackalloc可以带来性能优势的案例，但在这个问题中，它可能更接近于大多数情况下有人可能会急切地“优化”使用它。希望这两段代码一起显示整体stackalloc可以提高性能，但也会大大降低性能。

通常，stackalloc除非您无论如何都需要使用固定内存与非托管代码进行交互，否则您甚至不应该考虑，并且应该将其视为fixed一般堆分配的替代方案而不是替代方案。在这种情况下使用仍然需要谨慎，在开始之前进行深思熟虑，并在完成之后进行分析。

在其他情况下使用可能会带来好处，但它应该远远低于您将尝试的性能改进列表。

编辑：

回答问题的第 1 部分。Stackalloc 在概念上与您描述的差不多。它获取堆栈内存的一块，然后返回一个指向该块的指针。它不会检查内存是否适合这样，而是如果它尝试将内存获取到堆栈的末尾（在创建线程时受 .NET 保护），那么这将导致操作系统向运行时返回异常，然后它变成一个 .NET 托管异常。如果您只是在具有无限递归的方法中分配单个字节，则会发生同样的情况 - 除非调用经过优化以避免堆栈分配（有时可能），否则单个字节最终将加起来足以触发堆栈溢出异常。

score 3 · Accepted Answer

我无法给出确切的答案，但stackalloc使用 IL opcode 实现localloc。我查看了发布版本生成的机器代码stackalloc，它比我预期的要复杂。我不知道是否localloc会按照您的指示检查堆栈大小，if或者当硬件堆栈实际溢出时 CPU 是否检测到堆栈溢出。

该答案的注释表明提供的链接localloc从“本地堆”分配空间。问题是除了 PDF 格式的实际标准之外，没有很好的 MSIL 在线参考。上面的链接来自与System.Reflection.Emit.OpCodesMSIL 无关的类，而是用于生成 MSIL 的库。

但是，在标准文档ECMA 335 - Common Language Infrastructure中有更准确的描述：

每个方法状态的一部分是一个本地内存池。localloc可以使用该指令从本地内存池中显式分配内存。本地内存池中的所有内存都在方法退出时回收，这是回收本地内存池内存的唯一方式（没有提供释放在此方法调用期间分配的本地内存的指令）。本地内存池用于分配类型或大小在编译时未知且程序员不希望在托管堆中分配的对象。

所以基本上“本地内存池”就是所谓的“堆栈”，C# 语言使用stackalloc运算符从这个池中分配。
在发布版本中，优化器足够聪明，可以完全删除调用，HeapAllocation从而大大缩短执行时间。似乎在使用stackalloc. 如果您关闭优化或以某种方式使用分配的缓冲区，您会发现stackalloc速度稍快。

c# - C# 和 .NET：stackalloc

2 回答 2

Related

Reference