我正在尝试为演示项目构建静态分析工具。我们可以自由选择要分析的语言。我首先使用 ANTLR 编写了一个 Java 代码分析器。我现在想对 Scala 代码做同样的事情。但是,我找不到 Scala 的 ANTLR 语法。它存在吗?还有其他机器可读形式的 Scala 语法吗?
4 回答
我不相信有这样的事情。
问题是对于任何语言,特别是对于像 Scala 这样的库语言,词法分析和句法分析是静态分析中最不有趣和最琐碎的部分。为了做任何有趣的事情,你需要执行大量的语义分析:去糖、类型推断、类型检查、种类检查、宏扩展、重载解析、隐式解析、名称绑定。简而言之:您需要或多或少地重新实现整个 Scala 编译器,以实际代码生成部分为模。请记住,Scala 的宏系统和 Scala 的类型系统都是图灵完备的(实际上,Scala 的宏系统是Scala!):如果不实际执行宏扩展、类型推断和类型检查,可能会进行大量的编译时和类型级计算,这是无法分析的。
这是一项艰巨的任务,实际上只有两个项目成功完成:一个是 Scala 编译器本身,另一个是 IntelliJ IDEA Scala 插件。
更不用说编译器插件了,它们几乎可以任意改变 Scala 的语法和语义。
但看哪,有希望:Scala 编译器本身提供了一个称为Presentation Compiler的 API ,它是专门为 IDE、代码荧光笔和各种静态分析工具设计的。它使您可以在优化和代码生成阶段之前访问编译器在编译期间拥有的全部信息。ScalaDoc、Scala REPL、Scala Eclipse 插件、NetBeans Scala 插件、SimplyScala.Com、Emacs 的 ENSIME 插件、一些静态分析工具和许多其他工具都使用它。
您可以在https://github.com/lrlucena/grammars-v4/tree/master/scala找到 ANTLR 的 Scala 语法。它基于 Scala 语言规范http://www.scala-lang.org/files/archive/spec/2.11/13-syntax-summary.html。
Scala 语言参考的附录 A对您有用吗?它是 EBNF 格式。
Scalastyle 使用scalariform对其进行解析。有了这个,你得到一个案例类的 AST。但是,您只能获得文件中的信息,例如,您不会获得推断类型。
如果您不需要所有额外信息,请查看 Scalariform。Scalastyle 代码相当容易理解,从Checker.scala开始。