haskell - Haskell 编译器如何决定是在堆上分配还是在栈上分配？

Question

Haskell 没有显式内存管理功能，所有对象都是按值传递的，因此也没有明显的引用计数或垃圾收集。Haskell 编译器通常如何决定是生成在堆栈上分配的代码还是在堆上为给定变量分配的代码？它是否会始终如一地在不同的调用站点为同一函数分配相同的变量？当它分配时，它如何决定何时释放内存？堆栈分配和释放是否仍以与 C 中相同的函数进入/退出模式执行？

score 37 · Accepted Answer

当你调用这样的函数时

f 42 (g x y)

那么运行时行为类似于以下内容：

p1 = malloc(2 * sizeof(Word))
p1[0] = &Tag_for_Int
p1[1] = 42
p2 = malloc(3 * sizeof(Word))
p2[0] = &Code_for_g_x_y
p2[1] = x
p2[2] = y
f(p1, p2)

也就是说，参数通常作为指向堆上对象的指针传递，就像在 Java 中一样，但与 Java 不同的是，这些对象可能表示挂起的计算，也就是thunk，例如我们示例中的 ( g x y/ p2)。如果没有优化，这种执行模型效率很低，但有一些方法可以避免这些开销。

GHC 做了很多内联和拆箱。内联消除了函数调用开销，并且通常可以进行进一步的优化。拆箱意味着改变调用约定，在上面的例子中我们可以42直接传递而不是创建堆对象p1。
严格性分析找出一个论点是否保证被评估。在这种情况下，我们不需要创建 thunk，而是完全评估表达式，然后将最终结果作为参数传递。
缓存小对象（目前只有 8bitChar和s）。~~也就是说，不是为每个对象分配一个新的指针，而是返回一个指向缓存对象的指针。~~ 即使对象最初是在堆上分配的，垃圾收集器稍后也会对它们进行重复数据删除（只有小s 和s）。由于对象是不可变的，因此这是安全的。IntIntChar
有限的逃逸分析。对于局部函数，一些参数可能会在堆栈上传递，因为在外部函数返回时它们已被认为是死代码。

编辑：有关（更多）信息，请参阅“在库存硬件上实现惰性功能语言：无脊椎无标签 G 机器”。本文使用“push/enter”作为调用约定。较新版本的 GHC 使用“eval/apply”调用约定。有关该切换的权衡和原因的讨论，请参阅“如何制作快速咖喱：push/enter vs eval/apply”

score 2 · Accepted Answer

GHC 唯一放入堆栈的是评估上下文。使用 let/where 绑定分配的任何内容以及所有数据构造函数和函数都存储在堆中。惰性求值使您对严格语言中执行策略的了解变得无关紧要。

haskell - Haskell 编译器如何决定是在堆上分配还是在栈上分配？

2 回答 2

Related

Reference