自己动手构造编译系统:编译、汇编与链接1.2 历史渊源

1.2  历史渊源

  

   历史上很多新鲜事物的出现都不是偶然的,计算机学科的技术和知识如此,编译系统也不例外,它的产生来源于编程工作的需求。编程本质上是人与计算机交流,人们使用计算机解决问题,必须把问题转化为计算机所能理解的方式。当问题规模逐渐增大时,编程的劳动量自然会变得繁重。编译系统的出现在一定程度上降低了编程的难度和复杂度。

  在计算机刚刚诞生的年代,人们只能通过二进制机器指令指挥计算机工作,计算机程序是依靠人工拨动计算机控制面板上的开关被输入到计算机内部的。后来人们想到使用穿孔卡片来代替原始的开关输入,用卡片上穿孔的有无表示计算机世界的“0”和“1”,让计算机自动读取穿孔卡片实现程序的录入,这里录入的指令就是常说的二进制代码。然而这种编程工作在现在看起来简直就是一个“噩梦”,因为一旦穿孔卡片的制作出现错误,所有的工作都要重新来过。

  人们很快就发现了使用二进制代码控制计算机的不足,因为人工输入二进制指令的错误率实在太高了。为了解决这个问题,人们用一系列简单明了的助记符代替计算机的二进制指令,即我们熟知的汇编语言。可是计算机只能识别二进制指令,因此需要一个已有的程序自动完成汇编语言到二进制指令的翻译工作,于是汇编器就产生了。程序员只需要写出汇编代码,然后交给汇编器进行翻译,生成二进制代码。因此,汇编器将程序员从烦琐的二进制代码中解脱出来。

  使用汇编器提高了编程的效率,使得人们有能力处理更复杂的计算问题。随着计算问题复杂度的提高,编程中出现了大量的重复代码。人们不愿意进行重复的劳动,于是就想办法将公共的代码提取出来,汇编成独立的模块存储在目标文件中,甚至将同一类的目标文件打包成库。由于原本写在同一个文件内的代码被分割到多个文件中,那么最终还需要将这些分离的文件拼装起来形成完整的可执行代码。但是事情并没有那么简单,由于文件的模块化分割,文件间的符号可能会相互引用。人们需要处理这些引用关系,重新计算符号的引用地址,这就是链接器的基本功能。链接器使得计算机能自动把不同的文件模块准确无误地拼接起来,使得代码的复用成为可能。

  图1-2描述的链接方式称为静态链接,但这种方式也有不足之处。静态链接器把公用库内的目标文件合并到可执行文件内部,使得可执行文件的体积变得庞大。这样做会导致可执行文件版本难以更新,也导致了多个程序加载后相同的公用库代码占用了多份内存空间。为了解决上述的问题,现代编译系统都引入了动态链接方式(见图1-3)。动态链接器不会把公用库内的目标文件合并到可执行文件内,而仅仅记录动态链接库的路径信息。它允许程序运行前才加载所需的动态链接库,如果该动态链接库已加载到内存,则不需要重复加载。另外,动态链接器也允许将动态链接库的加载延迟到程序执行库函数调用的那一刻。这样做,不仅节约了磁盘和内存空间,还方便了可执行文件版本的更新。如果应用程序模块设计合理的话,程序更新时只需要更新模块对应的动态链接库即可。当然,动态链接的方式也有缺点。运行时链接的方式会增加程序执行的时间开销。另外,动态链接库的版本错误可能会导致程序无法执行。由于静态链接和动态链接的基本原理类似,且动态链接器的实现相对复杂,因此本书编译系统所实现的链接器采用静态链接的方式。

 

               图1-2  静态链接                                   图1-3  动态链接

  汇编器和链接器的出现大大提高了编程效率,降低了编程和维护的难度。但是人们对汇编语言的能力并不满足,有人设想要是能像写数学公式那样对计算机编程就太方便了,于是就出现了如今形形色色的高级编程语言。这样就面临与当初汇编器产生时同样的问题——如何将高级语言翻译为汇编语言,这正是编译器所做的工作。编译器比汇编器复杂得多。汇编语言的语法比较单一,它与机器语言有基本的对应关系。而高级语言形式比较自由,计算机识别高级语言的含义比较困难,而且它的语句翻译为汇编语言序列时有多种选择,如何选择更好的序列作为翻译结果也是比较困难的,不过最终这些问题都得以解决。高级语言编译器的出现,实现了人们使用简洁易懂的编程语言与计算机交流的目的。

时间: 2024-08-08 06:40:04

自己动手构造编译系统:编译、汇编与链接1.2 历史渊源的相关文章

自己动手构造编译系统:编译、汇编与链接

"自己动手系列" 自己动手构造编译系统 编译.汇编与链接 范志东  张琼声  著 图书在版编目(CIP)数据 自己动手构造编译系统:编译.汇编与链接 / 范志东,张琼声著. -北京:机械工业出版社,2016.7 (自己动手系列) ISBN 978-7-111-54355-8 I. 自- II. ①范- ②张- III. 编译器 IV. TP314 中国版本图书馆CIP数据核字(2016)第163077号 自己动手构造编译系统:编译.汇编与链接 出版发行:机械工业出版社(北京市西城区百万

自己动手构造编译系统:编译、汇编与链接导读

Preface前 言 本书适合谁读 本书是一本描述编译系统实现的书籍.这里使用"编译系统"一词,主要是为了与市面上描述编译器实现的书籍进行区分.本书描述的编译系统不仅包含编译器的实现,还包括汇编器.链接器的实现,以及机器指令与可执行文件格式的知识.因此,本书使用"编译系统"一词作为编译器.汇编器和链接器的统称. 本书的目的是希望读者能通过阅读本书清晰地认识编译系统的工作流程,并能自己尝试构造一个完整的编译系统.为了使读者更容易理解和学习编译系统的构造方法,本书将描述

自己动手构造编译系统:编译、汇编与链接1.3 GCC的工作流程

1.3  GCC的工作流程       在着手构造编译系统之前,需要先介绍编译系统应该做的事情,而最具参考价值的资料就是主流编译器的实现.GNU的GCC编译器是工业化编译器的代表,因此我们先了解GCC都在做什么. 我们写一个最简单的"HelloWorld"程序,代码存储在源文件hello.c中,源文件内容如下: #include<stdio.h> int main() {      printf("Hello World!");      return

自己动手构造编译系统:编译、汇编与链接2.6 本章小结

2.6  本章小结      本章介绍了编译系统的设计,并按照编译.汇编和链接的顺序阐述了它们的内部实现.同时,也介绍了x86指令和ELF文件结构等与操作系统及硬件相关的知识. 通过以上的描述,可以了解高级语言如何被一步步转化为汇编语言,以及词法分析.语法分析.语义分析.符号表和代码生成作为编译器的主要模块,其内部是如何实现的.汇编器在把汇编语言程序转化为二进制机器代码时,做了怎样的工作:汇编器的词法和语法分析与编译器有何不同:汇编器如何生成二进制指令和目标文件的信息.链接器在处理目标文件时是如

自己动手构造编译系统:编译、汇编与链接2.1 编译程序的设计

第2章 编译系统设计 麻雀虽小,五脏俱全. --<围城>    一个完善的工业化编译系统是非常复杂的,为了清晰地描述它的结构,理解编译系统的基本流程,不得不对它进行"大刀阔斧"地删减.这为自 己动手实现一个简单但基本功能完整的编译系统提供了可能.虽然本书设计的是简化后的编译系统,但保留了编译系统的关键流程.正所 谓"麻雀虽小,五脏俱全",本章从全局的角度描述了编译系统的基本结构,并按照编译.汇编和链接的流程来介绍其设计. 2.1  编译程序的设计 编译器

自己动手构造编译系统:编译、汇编与链接1.3.2 编译

1.3.2  编译      接下来GCC对hello.i进行编译,命令如下: $gcc –S hello.i –o hello.s 编译后产生的汇编文件hello.s内容如下:      .file                "hello.c"      .section           .rodata .LC0:      .string  "Hello World!"      .text .globl main      .type        m

自己动手构造编译系统:编译、汇编与链接1.3.3 汇编

1.3.3  汇编             接着,GCC使用汇编器对hello.s进行汇编,命令如下: $gcc –c hello.s –o hello.o 生成的目标文件hello.o,Linux下称之为可重定位目标文件.目标文件无法使用文本编辑器直接查看,但是我们可以使用GCC自带的工具objdump命令分析它的内容,命令格式如下: $objdump –sd hello.o 输出目标文件的主要段的内容与反汇编代码如下: hello.o:     file format elf32-i386

自己动手构造编译系统:编译、汇编与链接2.4.1 汇编词法、语法分析

2.4.1  汇编词法.语法分析      汇编语言有独立的词法记号,对于汇编词法的分析,只需要构造相应的词法有限自动机就可以了.举一个简单的例子: mov eax,[ebp-8] 该指令有8个词法记号,它们分别是:'mov''eax'逗号'[''ebp''–''8'和']'.汇编器的词法分析器将词法记号送到语法分析器用于识别汇编语言的语法模块.同样,我们需要构造汇编语言语法分析器,在这里可以提前看一下上述汇编指令的抽象语法树,如图2-13所示.   图2-13  汇编指令抽象语法子树 图2-1

自己动手构造编译系统:编译、汇编与链接2.5.2 符号解析

2.5.2  符号解析     如果说地址空间分配是为段指定地址的话,那么符号解析就是为段内的符号指定地址.对于一个汇编文件来说,它内部使用的符号分为两类:一类来自自身定义的符号,称为内部符号.内部符号在其段内的偏移是确定的,当段的起始地址指定完毕后,内部符号的地址按照如下方式计算: 符号地址 = 符号所在段基址 + 符号所在段内偏移 另一类来自其他文件定义的符号,本地文件只是使用该符号,这类符号称为外部符号.外部符号地址在本地文件内是无法确定的,但是外部符号总定义在其他文件中.外部符号相对于定