18

我正在尝试在 Haskell 中为类 C 语言编写编译器。编译器通过转换 AST 来进行。第一遍解析输入以创建 AST,将符号表与符号表打结,以允许在定义符号之前定位符号,而无需前向引用。

AST 包含关于类型和表达式的信息,它们之间可以存在联系;egsizeof(T)是依赖于类型的表达式T,并且T[e]是依赖于常量表达式的数组类型e

类型和表达式由 Haskell 数据类型表示,如下所示:

data Type = TypeInt Id
          | TypePointer Id Type -- target type
          | TypeArray Id Type Expr -- elt type, elt count
          | TypeStruct Id [(String, Type)] -- [(field name, field type)]
          | TypeOf Id Expr
          | TypeDef Id Type

data Expr = ExprInt Int -- literal int
          | ExprVar Var -- variable
          | ExprSizeof Type
          | ExprUnop Unop Expr
          | ExprBinop Binop Expr Expr
          | ExprField Bool Expr String -- Bool gives true=>s.field, false=>p->field

其中Unop包括地址-of()&和解引用(*)等运算符,并Binop包括加号(+)和时间(*)等运算符...

请注意,每种类型都分配了一个唯一的Id. 这用于构造类型依赖图,以检测导致无限类型的循环。一旦我们确定类型图中没有循环,就可以安全地对它们应用递归函数,而不会陷入无限循环。

下一步是确定每种类型的大小,为结构字段分配偏移量,并ExprField用指针算法替换 s。这样做,我们可以确定表达式的类型,并从类型图中消除ExprSizeofs、ExprFields、TypeDefs 和TypeOfs,所以我们的类型和表达式已经进化,现在看起来更像这样:

data Type' = TypeInt Id
           | TypePointer Id Type'
           | TypeArray Id Type' Int -- constant expression has been eval'd
           | TypeStruct Id [(String, Int, Type')] -- field offset has been determined

data Expr' = ExprInt Type' Int
           | ExprVar Type' Var
           | ExprUnop Type' Unop Expr'
           | ExprBinop Type' Binop Expr' Expr'

请注意,我们已经消除了一些数据构造函数,并稍微更改了其他一些构造函数。特别是,Type'不再包含任何Expr',并且每个Expr'都确定了它的Type'

所以,最后,问题是:创建两组几乎相同的数据类型,还是尝试将它们统一为一个数据类型更好?

保持两种不同的数据类型明确表明某些构造函数不能再出现。但是,执行常量折叠以评估常量表达式的函数将具有以下类型:

foldConstants :: Expr -> Either String Expr'

但这意味着我们不能在以后使用Expr's 执行常量折叠(想象一下操作 an 的某个传递Expr',并希望折叠任何出现的常量表达式)。我们需要另一个实现:

foldConstants' :: Expr' -> Either String Expr'

另一方面,保持单一类型将解决常量折叠问题,但会阻止类型检查器强制执行静态不变量。

此外,在第一遍中,我们在未知字段(如字段偏移量、数组大小和表达式类型)中放入了什么?undefined我们可以用, 或堵住漏洞error "*hole*",但这感觉就像一场等待发生的灾难(就像NULL你甚至无法检查的指针)。我们可以将未知字段更改为s,并用(就像我们可以Maybe检查的指针一样)塞住漏洞,但是在随后的传递中必须不断地从s 中提取始终是s 的值会很烦人。NothingNULLMaybeJust

4

2 回答 2

16

希望有更多经验的人会有一个更完善、经过实战考验和准备好的答案,但这是我的看法。

使用 GADT,您可以以相对较低的成本吃掉馅饼的一部分:

{-# LANGUAGE GADTs #-}

data P0 -- phase zero
data P1 -- phase one

data Type p where
     TypeInt     :: Id -> Type p
     TypePointer :: Id -> Type p -> Type p             -- target type
     TypeArray   :: Id -> Type p -> Expr p -> Type p   -- elt type, elt count
     TypeStruct  :: Id -> [(String, Type p)] -> Type p -- [(field name, field type)]
     TypeOf      :: Id -> Expr P0 -> Type P0
     TypeDef     :: Id -> Type P0 -> Type P0

data Expr p where
     ExprInt     :: Int -> Expr p                        -- literal int
     ExprVar     :: Var -> Expr p                        -- variable
     ExprSizeof  :: Type P0 -> Expr P0
     ExprUnop    :: Unop -> Expr p -> Expr p
     ExprBinop   :: Binop -> Expr p -> Expr p -> Expr p
     ExprField   :: Bool -> Expr P0 -> String -> Expr P0 -- Bool gives true=>s.field, false=>p->field

这里我们改变的是:

  • 数据类型现在使用 GADT 语法。这意味着构造函数是使用它们的类型签名声明的。data Foo = Bar Int Char变成data Foo where Bar :: Int -> Char -> Foo(除了语法,两者完全等价)。

  • 我们为Type和都添加了一个类型变量Expr。这是一个所谓的幻像类型变量:没有存储类型的实际数据p,它仅用于强制类型系统中的不变量。

  • 我们已经声明了虚拟类型来表示转换之前和之后的阶段:阶段零和阶段一。(在具有多个阶段的更复杂的系统中,我们可能会使用类型级别的数字来表示它们。)

  • GADT 让我们可以在数据结构中存储类型级别的不变量。这里我们有两个。首先是递归位置必须与包含它们的结构处于同一阶段。例如,查看TypePointer :: Id -> Type p -> Type p,您将 a 传递Type pTypePointer构造函数并得到 aType p作为结果,并且这些ps 必须是相同的类型。(如果我们想允许不同的类型,我们可以使用pand q。)

  • 第二个是我们强制执行某些构造函数只能在第一阶段使用的事实。大多数构造函数在幻像类型变量中是多态的p,但其中一些要求它是多态的P0。这意味着这些构造函数只能用于构造Type P0or类型的值Expr P0,而不能用于构造任何其他阶段。

GADT 有两个方向。第一个是如果你有一个返回 a 的函数Type P1,并尝试使用一个返回 a 的构造函数Type P0来构造它,你会得到一个类型错误。这就是所谓的“通过构造正确”:构造无效结构在静态上是不可能的(前提是您可以对类型系统中的所有相关不变量进行编码)。它的另一面是,如果你有一个值Type P1,你可以确定它是正确构造的:TypeOfTypeDef构造函数不能被使用(事实上,如果你尝试对它们进行模式匹配,编译器会抱怨) ,并且任何递归位置也必须是相位的P1. 本质上,当您构建 GADT 时,您存储了满足类型约束的证据,并且当您对其进行模式匹配时,您检索该证据并可以利用它。

那是容易的部分。不幸的是,除了允许的构造函数之外,我们在这两种类型之间还有一些差异:一些构造函数参数在不同阶段之间是不同的,而一些只存在于转换后阶段。我们可以再次使用 GADT 对其进行编码,但它不是低成本和优雅的。一种解决方案是复制所有不同的构造函数,并且每个构造函数都有一个 forP0P1。但重复并不好。我们可以尝试做的更细粒度:

-- a couple of helper types
-- here I take advantage of the fact that of the things only present in one phase,
-- they're always present in P1 and not P0, and not vice versa
data MaybeP p a where
     NothingP :: MaybeP P0 a
     JustP    :: a -> MaybeP P1 a

data EitherP p a b where
     LeftP  :: a -> EitherP P0 a b
     RightP :: b -> EitherP P1 a b

data Type p where
     TypeInt     :: Id -> Type p
     TypePointer :: Id -> Type p -> Type p
     TypeArray   :: Id -> Type p -> EitherP p (Expr p) Int -> Type p
     TypeStruct  :: Id -> [(String, MaybeP p Int, Type p)] -> Type p
     TypeOf      :: Id -> Expr P0 -> Type P0
     TypeDef     :: Id -> Type P0 -> Type P0

-- for brevity
type MaybeType p = MaybeP p (Type p)

data Expr p where
     ExprInt     :: MaybeType p -> Int -> Expr p
     ExprVar     :: MaybeType p -> Var -> Expr p
     ExprSizeof  :: Type P0 -> Expr P0
     ExprUnop    :: MaybeType p -> Unop -> Expr p -> Expr p
     ExprBinop   :: MaybeType p -> Binop -> Expr p -> Expr p -> Expr p
     ExprField   :: Bool -> Expr P0 -> String -> Expr P0

在这里,我们通过一些辅助类型强制执行了这样一个事实,即一些构造函数参数只能出现在阶段一 ( MaybeP) 中,而一些在两个阶段 ( EitherP) 之间是不同的。虽然这使我们完全类型安全,但感觉有点特别,我们仍然必须一直在MaybePs 和EitherPs 中包装东西。我不知道在这方面是否有更好的解决方案。不过,完全的类型安全是一件事情:我们可以编写fromJustP :: MaybeP P1 a -> a并确保它是完全安全的。

更新:另一种方法是使用TypeFamilies

data Proxy a = Proxy

class Phase p where
    type MaybeP  p a
    type EitherP p a b
    maybeP  :: Proxy p -> MaybeP p a -> Maybe a
    eitherP :: Proxy p -> EitherP p a b -> Either a b
    phase   :: Proxy p
    phase = Proxy

instance Phase P0 where
    type MaybeP  P0 a   = ()
    type EitherP P0 a b = a
    maybeP  _ _ = Nothing
    eitherP _ a = Left a

instance Phase P1 where
    type MaybeP  P1 a   = a
    type EitherP P1 a b = b
    maybeP  _ a = Just  a
    eitherP _ a = Right a

Expr与之前版本的唯一变化Type是构造函数需要添加一个Phase p约束,例如ExprInt :: Phase p => MaybeType p -> Int -> Expr p.

在这里,如果paType中的类型Expr已知,您可以静态地知道MaybePs 将是()还是给定类型以及EitherPs 是哪种类型,并且可以直接将它们用作该类型而无需显式展开。什么时候p是未知的,你可以使用maybePeitherPPhase类中找出它们是什么。(Proxy参数是必要的,因为否则编译器将无法判断您指的是哪个阶段。)这类似于 GADT 版本,如果p已知,您可以确定内容MaybePEitherP包含,否则您有模式匹配两种可能性。就“缺失”的论点而言,该解决方案也不完美()而不是完全消失。

构造Exprs 和Types 在两个版本之间似乎也大致相似:如果您正在构造的值具有任何特定于它的阶段,那么它必须在其类型中指定该阶段。当您想编写一个多态的函数p但仍要处理特定于阶段的部分时,问题似乎就来了。使用 GADT,这很简单:

asdf :: MaybeP p a -> MaybeP p a
asdf NothingP  = NothingP
asdf (JustP a) = JustP a

请注意,如果我只是编写asdf _ = NothingP了编译器,编译器会抱怨,因为不能保证输出的类型与输入的类型相同。通过模式匹配,我们可以确定输入的类型并返回相同类型的结果。

但是,对于该TypeFamilies版本,这要困难得多。仅仅使用maybeP和结果Maybe你不能向编译器证明任何关于类型的东西。您可以通过以下方式获得其中的一部分,而不是拥有maybePeitherPreturn Maybeand ,使它们成为像and这样的Either解构函数,这也使类型相等可用:maybeeither

maybeP  :: Proxy p -> (p ~ P0 => r) -> (p ~ P1 => a -> r) -> MaybeP p a -> r
eitherP :: Proxy p -> (p ~ P0 => a -> r) -> (p ~ P1 => b -> r) -> EitherP p a b -> r

(请注意,我们需Rank2Types要这样做,还要注意这些本质上是 和 的 GADT 版本的 CPS 转换版本MaybePEitherP

然后我们可以写:

asdf :: Phase p => MaybeP p a -> MaybeP p a
asdf a = maybeP phase () id a

但这还不够,因为 GHC 说:

data.hs:116:29:
 Could not deduce (MaybeP p a ~ MaybeP p0 a0)
 from the context (Phase p)
   bound by the type signature for
              asdf :: Phase p => MaybeP p a -> MaybeP p a
   at data.hs:116:1-29
 NB: `MaybeP' is a type function, and may not be injective
 In the fourth argument of `maybeP', namely `a'
 In the expression: maybeP phase () id a
 In an equation for `asdf': asdf a = maybeP phase () id a

也许你可以在某处使用类型签名来解决这个问题,但在这一点上,它似乎比它的价值更麻烦。因此,在等待其他人提供更多信息之前,我将推荐使用 GADT 版本,它更简单、更强大,但会产生一些语法噪音。

再次更新:这里的问题是因为MaybeP p a是一个类型函数并且没有其他信息可以通过,GHC 无法知道p应该a是什么。如果我传入 aProxy p并使用它而不是phase那个解决方案p,但a仍然未知。

于 2012-05-25T23:53:04.493 回答
4

这个问题没有理想的解决方案,因为每个都有不同的优点和缺点。

我个人会使用单一数据类型“树”并为需要区分的事物添加单独的数据构造函数。IE:

data Type
  = ...
  | TypeArray Id Type Expr
  | TypeResolvedArray Id Type Int
  | ...

正如您所说,这样做的好处是您可以在同一棵树上多次运行相同的阶段,但推理比这更深入:假设您正在实现一个生成更多 AST 的语法元素(类似于includeC++ 模板一种交易,它可能取决于像你这样的常量表达式,TypeArray所以你不能在第一次迭代中评估它)。使用统一数据类型方法,您只需在现有树中插入新的 AST,不仅可以直接在该树上运行与以前相同的阶段,而且您将免费获得缓存,即如果新的 AST 引用通过使用数组sizeof(typeof(myarr))或其他方法,您不必myarr再次确定常量大小,因为它的类型已经是TypeResolvedArray您之前解析阶段的 a 。

当您完成所有编译阶段时,您可以使用不同的表示,是时候解释代码(或其他东西)了;那么您可以确定不需要更多的 AST 更改,并且更简化的表示可能是一个好主意。

顺便说一句,您应该使用Data.Word.Word而不是Data.Int.Int数组大小。在 C 中使用ints 索引数组是一个常见的错误,而 C 指针实际上是无符号的。请不要在你的语言中犯这个错误,除非你真的想支持负大小的数组。

于 2012-05-25T23:04:10.760 回答