parsing - 寻找“标记器”、“解析器”和“词法分析器”是什么以及它们如何相互关联和使用的明确定义？

Question

我正在寻找关于什么是“分词器”、“解析器”和“词法分析器”以及它们如何相互关联的明确定义（例如，解析器是否使用分词器，反之亦然）？我需要创建一个程序，将通过 c/h 源文件来提取数据声明和定义。

我一直在寻找示例并且可以找到一些信息，但我真的很难掌握语法规则、解析树和抽象语法树等基本概念以及它们如何相互关联。最终这些概念需要存储在一个实际的程序中，但是 1）它们看起来像什么，2）有没有共同的实现。

我一直在查看有关 Lex 和 Yacc 等主题和程序的 Wikipedia，但从未学习过编译器类（EE 专业），我发现很难完全理解发生了什么。

score 200 · Accepted Answer

标记器将文本流分解为标记，通常通过查找空格（制表符、空格、换行符）。

词法分析器基本上是一个标记器，但它通常为标记附加额外的上下文——这个标记是一个数字，那个标记是一个字符串文字，这个另一个标记是一个相等运算符。

解析器从词法分析器中获取标记流，并将其转换为表示（通常）由原始文本表示的程序的抽象语法树。

上次我查了一下，关于这个主题的最好的书是“编译器：原理、技术和工具”，通常被称为“龙之书”。

score 23 · Accepted Answer

例子：

int x = 1;

词法分析器或标记器会将其拆分为标记“int”、“x”、“=”、“1”、“;”。

解析器将获取这些标记并以某种方式使用它们来理解：

score 5 · Accepted Answer

我会说词法分析器和标记器基本上是同一件事，它们将文本分解成其组成部分（“标记”）。然后解析器使用语法解释标记。

不过，我不会太拘泥于精确的术语用法——人们经常使用“解析”来描述解释一段文本的任何动作。

score 2 · Accepted Answer

（添加到给定的答案）

4 回答 4