ANTLR快餐教程(1) - 有好多现成例子啊

前面介绍LLVM的第一篇中,我们介绍过,编译器的后端基本都可以通过LLVM来解决。
那么,前端我们如何处理呢?我们选择ANTLR。

例子超丰富的ANTLR

ANTLR是用Java写的词法和语法分析工具。它比lex/flex/yacc/bison是更现代的工具。
最方便的一点是,ANTLR已经替我们写好了常用语言的语法规则,我们已经拥有了常见语言的分析器,可以在其基础上直接做我们想做的事情。网址在[https://github.com/antlr/grammars-v4/]

我们看一些例子吧。曾经火遍大江南北的谭浩强老师的《BASIC语言》还有人记得吗?DOS时代,GW-BASIC和QBasic是系统默认自带的语言,如同Unix上的cc编译器一样。

10 FOR I = 1 TO 10 STEP 1
20 PRINT I
30 NEXT I
40 END

我们来看一下ANTLR中对BASIC语言FOR循环的语法:

// for stmt 2 puts the for, the statment, and the next on 3 lines.  It needs "nextstmt"
forstmt2
   : FOR vardecl EQ expression TO expression (STEP expression)?
   ;

nextstmt
   : NEXT (vardecl (',' vardecl)*)?
   ;

完整的语法在:https://github.com/antlr/grammars-v4/blob/master/basic/jvmBasic.g4

还有更简单的么?有啊,汇编语言:https://github.com/antlr/grammars-v4/blob/master/masm/MASM.g4

言归正题,我们来看第一种大型的语言,C语言2011版的:https://github.com/antlr/grammars-v4/blob/master/c/C.g4

看个类型的吧,C11的还真不少:


typeSpecifier
    :   ('void'
    |   'char'
    |   'short'
    |   'int'
    |   'long'
    |   'float'
    |   'double'
    |   'signed'
    |   'unsigned'
    |   '_Bool'
    |   '_Complex'
    |   '__m128'
    |   '__m128d'
    |   '__m128i')
    |   '__extension__' '(' ('__m128' | '__m128d' | '__m128i') ')'
    |   atomicTypeSpecifier
    |   structOrUnionSpecifier
    |   enumSpecifier
    |   typedefName
    |   '__typeof__' '(' constantExpression ')' // GCC extension
    ;

我们通过语法规则,大致可以估算一下语言的复杂度:

语言 语法行数 地址
C11 926 https://github.com/antlr/grammars-v4/blob/master/c/C.g4
C++14 2353 https://github.com/antlr/grammars-v4/blob/master/cpp/CPP14.g4
Go 1170 https://github.com/antlr/grammars-v4/blob/master/golang/Golang.g4
Java7 1017 https://github.com/antlr/grammars-v4/blob/master/java/Java.g4
Java8 1780 https://github.com/antlr/grammars-v4/blob/master/java8/Java8.g4
Lua 336 https://github.com/antlr/grammars-v4/blob/master/lua/Lua.g4
Pascal 972 https://github.com/antlr/grammars-v4/blob/master/pascal/pascal.g4
Python3 1558 https://github.com/antlr/grammars-v4/blob/master/python3/Python3.g4
Swift 1163 https://github.com/antlr/grammars-v4/blob/master/swift/Swift.g4
ECMA Script 5 1504 https://github.com/antlr/grammars-v4/blob/master/ecmascript/ECMAScript.g4
Erlang 391 https://github.com/antlr/grammars-v4/blob/master/erlang/Erlang.g4
Fortran 77 1363 https://github.com/antlr/grammars-v4/blob/master/fortran77/fortran77.g4
Scala 704 https://github.com/antlr/grammars-v4/blob/master/scala/Scala.g4
SQLite 905 https://github.com/antlr/grammars-v4/blob/master/sqlite/SQLite.g4
Clojure 262 https://github.com/antlr/grammars-v4/blob/master/clojure/Clojure.g4

从词法复杂度上看:

  • C,Java7,Swift,Go这几门语法的复杂度是比较适中的
  • C++和Java 8确实是比较复杂的,比起它们的前辈C和Java 7都变复杂了不少
  • JavaScript和Python3已经比较复杂了
  • Clojure,Lua和Erlang是惊喜,规模小,表现力强

装上玩玩吧

既然ANTLR有这么丰富的例子供我们参考,我们就装一个玩玩吧。
在macOS上,通过Homebrew就可以安装。

在Linux上,通过下面的步骤来安装:

wget http://www.antlr.org/download/antlr-4.6-complete.jar
export CLASSPATH=".:/path/to/antlr-4.6-complete.jar:$CLASSPATH"
alias antlr4='java -jar /path/to/antlr-4.6-complete.jar'
alias grun='java org.antlr.v4.gui.TestRig'

照抄个Hello,World的例子试一下吧:

grammar Hello ;
r : 'hello' ID ;
ID: [a-z]+ ;
WS : [ \t\r\n]+ -> skip ;

都是正则表达式,很容易理解,ID是小写字母组成的,WS是空格制表符回车换行符,空白符过滤掉。

输入antlr4 Hello.g4,就生成了好几个.java文件,调用javac编译一下。成功!

antlr4 Hello.g4
javac *.java

生成的文件,我们快速浏览一下:
第一个,HelloListener.java:

// Generated from Hello.g4 by ANTLR 4.6
import org.antlr.v4.runtime.tree.ParseTreeListener;

/**
  * This interface defines a complete listener for a parse tree produced by
  * {@link HelloParser}.
  */
 public interface HelloListener extends ParseTreeListener {
     /**
      * Enter a parse tree produced by {@link HelloParser#r}.
      * @param ctx the parse tree
      */
     void enterR(HelloParser.RContext ctx);
     /**
      * Exit a parse tree produced by {@link HelloParser#r}.
      * @param ctx the parse tree
      */
     void exitR(HelloParser.RContext ctx);
 }

R是我们刚才定义的语法规则,在进入和退出时,这个接口是提供回调的接口。

Hello.tokens:

T__0=1
ID=2
WS=3
'hello'=1

HelloParser.java是解析器。

时间: 2024-10-03 11:02:37

ANTLR快餐教程(1) - 有好多现成例子啊的相关文章

ANTLR快餐教程(2) - ANTLR其实很简单

ANTLR其实很简单 ANTLR是通过递归下降的方式来解析一个语法的. 所谓的递归下降,其实很简单,不过就是一些模式匹配而己. 简单的模式匹配 我们看下官方的一个简单的例子,这是一个赋值表达式的例子. 语法这样写: assign : ID '=' expr ';' ; 解析器的代码类似于下面这样: void assign() { match(ID); match('='); expr(); match(';'); 解析只分为两种情况:第一种情况是直接模式匹配,第二种情况是调用其它函数继续分析.

TypeScript快餐教程 (1) - 初识

TypeScript快餐教程 (1) - 初识 JavaScript,更广泛点也许可以说是ECMA Script的各种实现,从诞生到现在,一直就没断过争议.ECMA Script 4的夭折正是这些争论严重程度的重要体现. Anyway,不断争议如何,JavaScript的地位一直不曾被撼动.针对JavaScript存在的问题,可编译成JavaScript的语言一直就前仆后继. 这其中,DART,CoffeeScript和TypeScript是其中最有名的三个. DART由Google推出,设计者

Clojure快餐教程(1) - 运行在JVM上的Lisp方言

Clojure快餐教程(1) - 运行在JVM上的Lisp方言 Java作为目前为止被使用最广泛的使用虚拟机的编程语言,带动了JVM上语言族的繁荣. 有根红苗正的为JVM设计的动态语言Groovy,目前最主要被用于Gradle编译环境中:也有Jython, JRuby等动态语言在JVM上的实现,也有scala这样强大的混合语言. 在这之中,clojure是比较特殊的一种,它是Lisp语言在JVM上的一种方言. 使用clojure调用java 首先我们先看一下如何用clojure来调用java的方

用代码画流程图和时序图快餐教程(3) - PlantUML画时序图

PlantUML画时序图 用描述性的语言来写UML,尤其是Sequence Diagram,PlantUML应该是很多同学的首选了吧. 网址:http://plantuml.com/ 我们可以使用eclipse的plugin来写PlantUML,如下: 速成教程 @startuml和@enduml 这个没啥说的,开始的时候用@startuml,结束的时候要加个@enduml. 标题 格式: title 标题名 participant 格式:participant 类名 #颜色 例: @start

用代码画流程图和时序图快餐教程(1) - graphviz的dot图

用代码画流程图和时序图快餐教程(1) 版本历史: 2016.06.02,v1:初稿 2016.07.31,v2:更新中文字体的设置.更新颜色的作用. 2017.08.02,v3:更新命令行方式 graphviz的dot图 工具下载网址:http://www.graphviz.org/. 可以使用sublime text来编辑. Windows下的GVEdit 在Windows下,Graphviz提供一个GVedit工具来编辑. 命令行方式 在mac和Linux下,我们可以采用命令行的方式来实现.

ART世界探险(3) - ARM 64位CPU的架构快餐教程

ART世界探险(3) - ARM 64位CPU的架构快餐教程 前面我们说过,Dalvik如果没有JIT的话,可以做到架构无关,让Dalvik指令都解释执行.但是ART是AOT,要编译成针对芯片具体的机器指令. 所以,研究Dalvik的时候可以不用太关心目标指令,而我们研究ART必须对目前最流行的微处理器的架构有个基本的了解. 在上一讲我们对于ART从java byte code到ARM64 v8指令的整个流程有了一个大概的了解之后,我们就目前最流行的ARM64位芯片的知识进行一些探索. 我们的目

R语言快餐教程(1) - 我们开始做统计吧

R语言快餐教程(1) - 我们开始做统计吧 R语言简介 R语言是基于S语言的一种开源实现.S语言是贝尔实验室最早开发的一种用于统计的工具,后来成为商业的S-PLUS软件,是一种与SAS和SPSS齐名的统计软件. R语言的官方网址是:[https://www.r-project.org/] R语言的一个重要的优势就是R的生态,有大量的高质量的第三方的统计和算法相关的包. 在R中活下去 获取帮助 首先我们学习如何在R中获取函数帮助和函数的例子. help(函数名) 例:比如我们想知道标准差函数sd的

C++11时代的标准库快餐教程(3) - 排序

排序 讲完容器之后,我们迅速进入到算法部分. 首先看一下,我们这讲在整个算法大图的中位置: 在进入排序相关之前,我们把虽然与排序无关,但是也有关联的计数和最大值最小值部分先看一下.算是对算法部分作个预热,将来会广泛出场的lambda表达式也先借机会亮亮相. 计数 计数的目的,是数一数,在容器里,符合某一条件的元素有多少个. 算法1: std::count,数一数跟这个值相等的对象有多少个. 我们看一个例子,数数vector中有几个1: std::vector<int> bit_containe

C++11快餐教程(1)-通过using定义类型的别名

C++11快餐教程(1)-通过using定义类型的别名 在C/C++中,我们经常通过typedef来定义类型的别名. 例如: typedef unsigned char u1; typedef unsigned short u2; 但是,这样定义有一点不好,新定义的别名是放在后面的.一般我们都是通过别名找原名,从后往前找还是不方便的. 那么,我们把别名定义在前面好不好? using u4 = uint32_t; using u8 = uint64_t; 在C++11中,using不再只是用于us