19

我正在尝试编写一个 C 解析器,用于我自己的教育。我知道我可以使用 YACC 之类的工具来简化流程,但我想尽可能多地从经验中学习,所以我从头开始。

我的问题是我应该如何处理这样的一行:

doSomethingWith((foo)(bar));

这可能(foo)(bar)是一种类型转换,如:

typedef int foo;

void doSomethingWith(foo aFoo) { ... }

int main() {
    float bar = 23.6;

    doSomethingWith((foo)(bar));

    return 0;
}

或者,它可能(foo)(bar)是一个函数调用,如:

int foo(int bar) { return bar; }

void doSomethingWith(int anInt) { ... }

int main() {
    int bar = 10;

    doSomethingWith((foo)(bar));

    return 0;
}

在我看来,解析器无法仅通过查看这行doSomethingWith((foo)(bar));这让我很恼火来确定它正在处理的两种情况中的哪一种,因为我希望能够将解析阶段与您实际确定的“解释”阶段分开这条线typedef int foo;意味着foo现在是一个有效的类型。在我想象的场景中Type a = b + c * d,即使 Type、a、b、c 和 d 没有在任何地方定义,也可以很好地解析,并且问题只会在以后实际尝试“解析”标识符时出现。

所以,我的问题是:“真正的”C 解析器如何处理这个问题?我希望的两个阶段之间的分离只是一个天真的愿望,还是我错过了什么?

4

3 回答 3

16

从历史上看,typedef 是对 C 的较晚添加。在添加到语言之前,类型名称由关键字(intchardoublestruct等)和标点符号(*[]())组成,因此很容易明确识别。标识符永远不能是类型名称,因此括号中的标识符后跟表达式不能是强制转换表达式。

Typedefs 使用户定义的标识符成为类型名称成为可能,这相当严重地弄乱了语法。

看一下 C 标准中类型说明符的语法(我将使用 C90 版本,因为它稍微简单一些):

类型说明符:
void
char
short
int
long
float
double
signed
unsigned
struct-or-union-specifier
enum-specifier
typedef-name

除了最后一个之外的所有内容都可以轻松识别,因为它们要么是关键字,要么以关键字开头。但是typedef-name只是一个标识符。

当 C 编译器处理typedef声明时,它实际上需要引入 typedef 名称作为新关键字。这意味着,与具有上下文无关语法的语言不同,需要从符号表到解析器的反馈。

甚至这也有点过于简单化了。仍然可以在内部范围内将 typedef 名称重新定义为另一个 typedef 或其他内容:

{
    typedef int foo; /* foo is a typedef name */
    {
        int foo;     /* foo is now an ordinary identifier, an object name */
    }
                     /* And now foo is a typedef name again */
}

因此,如果 typedef 名称用于类型名称有效的上下文中,则它实际上是用户定义的关键字,但如果重新声明,它仍然是普通标识符。

TL;DR:解析 C 很困难。

于 2013-09-07T22:15:03.513 回答
13

您正在谈论的是“上下文无关语法”,您可以在其中解析所有内容,而无需记住什么是类型和什么是变量(或者,通常,使用与标识符关联的任何语义属性)。不幸的是,C 不是上下文无关的,所以你没有那么奢侈。

于 2013-09-07T20:04:36.033 回答
2

几乎没有现代语言是上下文无关的(例如,可以具有完全在本地确定的短语的含义)。

聪明的钱是构建一个上下文无关的解析器,然后解决上下文依赖关系,隔离这两个任务。

因此“解析器如何知道函数调用的类型转换”的问题成为一个非主题;它存在的唯一原因是人们坚持将原始解析与名称和类型解析纠缠在一起。

对于更简洁的模型,请考虑使用 GLR 解析器。有关更多详细信息,请参阅this SO answer,使用解决问题的问题

 x*y;

意味着在 C 中,对于 OP 来说同样的问题,如果他还没有绊倒它的话。

于 2014-06-20T10:16:31.123 回答