柯里化的前生今世(四):编译器与解释器

关于

在上一篇中,我们提到了形式语言与文法,S表达式与M表达式,同像性。

本文将开始写一个简单的解释器,
通过具体实现,我们来理解求值环境,动态作用域和静态作用域,还有闭包等概念。
当然,一篇文章来写完这些肯定是不够的,我们可以慢慢来,循序渐进。
写完了这个解释器之后,我们会增加一些新的功能。

编译器与解释器

编译器会将源代码转换成另一种语言的代码,然后在支持后一种语言的机器上执行。
而解释器则不同,它会逐行分析源代码,直接执行分析结果。

值得一提的是,编译和解释是执行代码的两种手段,
具体的语言实现很可能采用两者的混合形式。
例如,一段Java程序,会首先经过javac编译为字节码,
字节码再交由Java虚拟机来解释执行。(JIT和RTSJ,略。。

编译器包含以下三个部分,
编译器前端:词法分析,语法分析,最终生成抽象语法树这种中间代码。
编译器优化:中间代码多次转换,多种优化,
编译器后端:目标代码生成,优化目标代码。

解释器不包含目标代码生成阶段,将优化结果直接执行。
前端和优化,是编译器和解释器共有的。

抽象语法树

编译器前端会分析源代码文本,生成一棵抽象语法树。
假如,我们有如下源代码,(1+23)(4-5)
使用ANTLR,我们得到了(具体)语法树,

语法文件如下:

grammar Expr;

expr: expr ('*'|'/') expr
    | expr ('+'|'-') expr
    | INT
    | '(' expr ')'
    ;

INT: [0-9]+ ;
WS: [ \t]+ -> skip ;

我们看到语法树包含了产生式的名称,这在后续处理过程中是不需要的,
因此,编译器前端会将具体语法树转换成一种中间形式——抽象语法树。

( (+ 1 ( 2 3)) (- 4 5))

这不就是S表达式吗?
对的,编译器前端会将任何语言的源代码转换成与具体语法无关的抽象语法树,
而S表达式正是这种抽象语法树的线性编码。
(因此,你写任何语言,本质上都是在写Lisp。。

格林斯潘第十定律
任何C或Fortran程序复杂到一定程度之后,都会包含一个临时开发的、不合规范的、充满程序错误的、运行速度很慢的、只有一半功能的Common Lisp实现。

简化解释器的实现

为了简化解释器的实现,我们会直接分析S表达式(抽象语法树),并且略过优化环节。我们也不解释四则运算表达式,因为这涉及到了操作符的定义问题。
我们将直接实现lambda表达式和函数的调用。

(define (eval-exp exp)
  (handle-decision-tree
   `((,is-symbol? ,eval-symbol)
     (,is-self-eval-exp? ,eval-self-eval-exp)
     (,is-list?
      ((,is-lambda? ,eval-lambda)
       (,is-function-call-list? ,eval-function-call-list))))
   exp))

和其他解释器的教材不同的是,我没有写那么多的if-else,
而是把决策模式提取出来了,这样会更清晰一些。

eval-exp会根据exp的具体形式,寻找相应的处理方式,
而各个处理方式中,还有可能再用到eval-exp来处理子表达式。
因此,这是一个递归执行的过程。

下文,我们会剖析这个简单的解释器,
把每个处理分支都实现一下。

关于写作意图

本系列文章的写作目的是想借着柯里化这个概念,
把函数式编程相关的知识点串联起来。

为什么选择柯里化呢,因为柯里化首先和高阶函数相关,
我可以借此来引入作用域的概念,
continuation本身就是一个单参函数,顺便就可以介绍了,
hygienic macro也涉及到了标识符的查找,学了求值环境也容易理解了。

其次,带参数的类型,可以类比函数的柯里化来理解,
要想理解带参数的类型,我们就得学习类型,以及代数数据类型,
从而继续深入下去,学习Functor,Applicative,Monad这些类型类。
这样类型系统就揭开了神秘的面纱。

当然,这些都是偏工业应用的,并没有涉及理论基础,
自动机理论,可计算性理论,形式语义,也不适合在本系列中提及,
写完本系列后,我会尝试写其他系列,希望能覆盖掉某些点,
以此来督促自己努力学习,小心求证。

参考

程序设计语言:实践之路
编程语言实现模式
The Definitive ANTLR 4 Reference
Lisp in Small Pieces
Java 是编译型语言还是解释型语言?
Abstract vs. Concrete Syntax Trees

时间: 2025-01-02 17:37:27

柯里化的前生今世(四):编译器与解释器的相关文章

柯里化的前生今世(一):函数面面观

关于 本文作为开篇,介绍了出场人物,并形象化的引入了高阶函数, 得到了柯里化的概念. 后续文章,会介绍高阶函数的实现方式,词法作用域和闭包,参数化类型,类型上的柯里化, 敬请期待. 如有不同的认识,或者感兴趣的点,请直接联系我,欢迎指教. 人物介绍 球星库里 库里,Stephen Curry,1988年3月14日出生于美国俄亥俄州阿克伦(Akron, Ohio), 美国职业篮球运动员,司职控球后卫,效力于NBA金州勇士队. 斯蒂芬·库里2009年通过选秀进入NBA后一直效力于勇士队,新秀赛季入选

柯里化的前生今世(八):尾调用与CPS

关于 在上一篇中,我们介绍了continuation的概念,还介绍了Lisp中威力强大的call/cc,它提供了first-class continuation,最后我们用call/cc实现了python中的generator和yield. call/cc赋予了我们很强的表达能力,Lisp中的异常处理机制也很人性化. 例如,Common Lisp: Condition_system, 由于call/cc可以捕捉到异常处的continuation, 我们就可以手动调用这个continuation,

柯里化的前生今世(九):For Great Good

关于 上文第二~八篇中,我们学习了Racket语言,它很有代表性,是一种Lisp方言. 很多概念用Racket描述会更加简便. 我们介绍了高阶函数,词法作用域,闭包以及continuation, 这些概念对理解函数式编程来说十分重要. 然而,偏见却经常起于片面. 只学习一种语言,会让我们对事物的同一个侧面产生习惯. 事实上,我们需要多样化的角度,也需要经常更换思维方式. 这对学习新知识很有帮助, 有些时候,我们理解不了某些概念,很有可能是因为这个概念被描述的不够全面, 我们经常走到深入思考这一特

柯里化的前生今世(十二):多态性

关于 本文借用Haskell介绍了自定义类型,带参数的类型,Ad-hoc多态性,kind, 其中,带参数的类型在类型上可以做"柯里化". 1. 自定义类型 Haskell中使用data自定义类型. data Bool = True | False 其中,Bool是类型名,True和False是该类型的值. 一个值可以包含多种不同类型的字段(field),例如, data BookType = BookValue Int String 其中BookType是类型名,BookValue是值

柯里化的前生今世(十):类型和类型系统

形式化方法 在计算机科学中,尤其在软件工程和硬件工程领域, 形式化方法(Formal method),是一种数学方法,用于软件和硬件系统的描述(specification).开发(development)和验证(verification).旨在能像其它工程学科一样,通过用数学进行分析,来提高设计的可靠性(reliability)和健壮性(robustness). 为了让系统表现的和规范(specification)一致,现代软件工程采用了一系列的形式化方法.其中包括一些强有力的框架,例如,霍尔逻

柯里化的前生今世(十一):Pure and Lazy

语言的作用 语言可以用来交流想法,描述概念, 当前使用了什么语言,取决于我们有什么样的需要. 为了理解词法作用域,闭包,和continuation, 前文中,我们借助了Racket. 现在,为了理解代数数据类型(algebraic data type),多态(polymorphism),参数化类型(parameterized type),类型类(type class),我们要学习Haskell了. 编程也是如此,它是关于思想的, 编程语言只是描述这种思想的工具罢了. 非严格语义(non-stri

柯里化的前生今世(三):语言和同像性

按照故事情节的正常发展,我们这一篇该介绍Racket语言的语法了. 可是,在大局观上,我们还没有达成共识. 对于一个概念来说,我们不止要学会怎样描述它,还要学会理解它的内涵. 因此,这篇还是在打基础,俗称,引言.. 关于 在上一篇中,我们提到了Lisp语言家族,看到了关于Lisp最美丽的传说,我们提到了Racket,以及它的IDE,DrRacket. 本文将从目标语言和元语言,同像性(Homoiconicity),引用等这些角度来深入的讨论Lisp, 浅尝辄止,毕竟不是一个好习惯. 目标语言和元

柯里化的前生今世(十三):WHNF

1. 形式系统(Formal system) 在逻辑学与数学中,一个形式系统由两部分组成,一个形式语言加上一套推理规则. 一个形式系统也许是纯粹抽象地制定出来的,只是为了研究其自身. 也可能是为了描述真实现象或客观事实而设计的. 2. λ演算(λ-caculus) λ演算用于研究函数定义.函数应用和递归,它是一些形式系统的总称, 配备不同的推理规则集,就会得到不同的演算系统. λ演算由Alonzo Church和Stephen Cole Kleene在20世纪三十年代引入, Church在193

柯里化的前生今世(六):词法作用域和闭包

关于 在上一篇中,我们介绍了动态作用域,并进行了相关名词的解释. 我们解释了什么是环境,什么是帧,如何在一个环境中对表达式求值. 我们用一个内部结构表示了函数,实现了一个微型的支持动态作用域的解释器. 这一篇,我们将再往前一步,实现词法作用域(lexical scope). 动态作用域 vs 词法作用域 作用域(scope)的概念大家可能比较陌生, 但是闭包(closure)的概念在这几年非常流行,几乎已经没有什么主流语言不支持它了. 从实现角度,和函数一样我们将用另外一种内部结构表示闭包, ;