LLVM提议向C语言中加入模块机制

作者 Alex
Blewitt
 ,译者 臧秀涛 发布于
十二月 05, 2012

在今年11月的LLVM开发者大会上,来自Apple的Doug Gregor做了一场讲座,主题是向C语言中加入模块(Module)机制。讲座中提到:

长期以来,C的预处理器就是程序员和工具的问题之源。写得不好的头文件致使宏污染和包含顺序等问题大量存在,程序员必须不断地与之斗争。为了缓解这些问题,开发者习惯上采用各种预处理器变通方案,比如LONG_MACRO_PREFIXES这种风格的很长的宏前缀,#include防卫语句,或是临时使用#undef来处理库中的宏。

另一方面,工具也必须能够处理重复解析相同头文件时所面对的内在可伸缩性问题,因为即便程序员并不希望,但不同的处理环境还是可能影响头文件的解释方式。

模块试图解决这一问题,它的理念是:隔离特定库的接口,并将其一次性编译为一种高效的、序列化的表示形式,当使用该库时,可以高效地导入,从而改进程序员的体验和编译过程的伸缩性。

该提议的基本前提是,作为一种加速编译并允许复用之前解析过的头文件的手段,即使编译最简单的文件,也要避免使用预处理器来包含大量头文件。在一个与“Hello World”同名的例子中,他强调到,一个包含64个字符的C程序经过预处理变成了11 074个字符,而一个包含81个字符的C++程序预处理后变成了1 161 033个字符。他还指出,因为包含要依赖于预处理器当时的状态,所以重新解析头文件可能让程序很脆弱(比如,如果在 #include 之前使用#define FILE "myfile.txt",预处理器会破坏头文件,从而导致构建失败)。

他的建议是使用一个新关键字import来加载模块。不同于预处理器的文本包含方式,编译器能够理解该模块是一个固定的版本,所以只解析一次。如果多次使用相同的模块,可以使用前面解析过的同一数据结构,不需要每次都重新解析。

模块也可以嵌套,这允许导入子模块;在所给的例子中,他演示了std模块中的子模块stdio可以使用import std.stdio来包含。导入模块之后,其中的所有公开API 就都导入到客户代码中了,但非公开API是隐藏的。为了实现这种控制,模块需要声明哪些接口是公开的,哪些是非公开的,这可以利用public 关键字:

// stdio.c
export std.stdio:
public:
typedef struct {
  …
} FILE;
int printf(const char*, …) {
  …
}

请注意,在这个例子中,仅提供实现文件就可以了,不需要头文件。export包含了模块的名字,这里就是std.stdio。public用于区分API 的公开部分与非公开部分。这可以编译为库以及带有充分元数据的函数类型和宏,供客户代码使用。

当然,这只是对未来的一个建议,并非标准。那么这种方式应如何实现呢?建议使用头文件来处理现有模块的公开API,并将模块定义为一组头文件:

// /usr/include/module.map
module std {
  module stdio { header "stdio.h" }
  module stdlib { header "stdlib.h" }
  module math { header "math.h" }
  exclude header "assert.h"
}
module ClangAST {
  umbrella "AST/AST.h"
  module * { }
} // 可以使用“import ClangAST.Decl”来导入AST/Decl.h

为便于以后生成模块(部分原因是方便Objective-C框架导出模块),“umbrella module”机制允许将一个目录下的一组头文件作为单个模块导出。

适于处理模块的编译器可以在头文件上利用单独的一遍(Pass)来构建模块,之后在随后的头文件中复用该模块的信息。(编译好的模块应采用什么格式尚未指定,可能交由具体的编译器定义。)模块中也可以加入附加的元信息,比如说明模块运行所需的库。这允许编译器处理每个模块所需的链接标记,从而避免了用户在链接时提供一大堆-l标记。

要使用模块,客户代码唯一需要修改的是将#include替换为等价的import。此外,因为在预处理后,模块中带有导出的函数和类型等信息,因此能够更好地进行编译诊断;利用这些信息,编译器报错和IDE快速修复等功能也能提示所需的import,而不仅仅是直接失败。

最后,复用模块信息也允许将调试信息与模块关联起来,而非让这些信息重复出现在每个目标文件中。编译器和链接器就可以少生成一些调试信息,反过来又加速了编译过程。模块也为调试器提供了额外的类型信息(而不是将类型信息内联到每个目标文件中),因此调试器可以报告模块中定义的正确类型。

模块提议的净效应是,它提供了一种能够兼容现有工具的迁移途径,同时,在用户无需对原有代码进行多少修改的条件下,还带来了一些优点(主要是提升了编译速度,并改进了诊断错误消息和调试)。它也支持文件增量式升级,支持增量式地将单个预处理器指令切换为基于模块的导入机制。同时无需将编译速度测量当做模块表示的一部分,该工作已经在LLVM实现这些模块时进行了。虽然模块机制没有考虑版本或命名空间(很大程度上是因为必须满足向后兼容性),但该机制如果得以广泛应用的话,能够显著提升C和C++程序的编译速度。此外,向后兼容性被明确提了出来,像LLVM的块(block)规范,当需要的时候很可能用于支持其他编译器或规范中的包含。不过,在广为使用的C和C++编译器中,LLVM编译器工具链是唯一的一个保持创新并以身作则的了。其他编译器是否会引入这些特性,可能取决于LLVM
实现方案能否成功以及能够带来哪些益处。

查看英文原文:LLVM Proposes
Adding Modules to C

时间: 2024-11-02 07:34:46

LLVM提议向C语言中加入模块机制的相关文章

Node.js中的模块机制学习笔记_node.js

Javascript自诞生以来,曾经没有人拿它当做一门编程语言.在Web 1.0时代,这种脚本语言主要被用来做表单验证和网页特效.直到Web 2.0时代,前端工程师利用它大大提升了网页上的用户体验,JS才被广泛重视起来.在JS逐渐流行的过程中,它大致经历了工具类库.组件库.前端框架.前端应用的变迁.Javascript先天就缺乏一项功能:模块,而CommonJS规范的出现则弥补了这一缺陷.本文将介绍CommonJS规范及Node的模块机制. 在其他高级语言中,Java有类文件,Python有im

深入理解Swift语言中的闭包机制_Swift

在 Swift 中的闭包类似于结构块,并可以在任何地方调用,它就像 C 和 Objective C 语言内置的函数. 函数内部定义的常数和变量引用可被捕获并存储在闭包.函数被视为封闭的特殊情况,它有 3 种形式. 在 Swift 语言闭合表达式,如下优化,重量轻语法风格,其中包括: 推导参数并从上下文菜单返回值的类型 从单封表达的隐性返回 简略参数名称 尾部闭包语法 语法 下面是一个通用的语法定义用于闭包,它接受参数并返回数据的类型: 复制代码 代码如下:   {(parameters) ->

Swift 3 语言中的全模块优化

本文讲的是Swift 3 语言中的全模块优化, 全模块优化是一种 Swift 编译器的优化模式.全模块优化的性能提升很大程度上因项目而异,可达到 2 倍甚至 5 倍的提升. 开启全模块优化可以使用 -whole-module-optimization (或者 -wmo)编译器标识,并且在 Xcode 8 中默认在新项目中被打开.另外 Swift 的包管理器在发布构建中使用全模块优化编译. 那么它是关于什么的?让我们先看看没有全模块优化编译器是如何工作的. 什么是模块和如何编译模块 一个模块是 S

Java语言中的函数编程

Java 语言中常被忽视的一个方面是它被归类为一种命令式(imperative)编程语言.命令式编程虽然由于与 Java 语言的关联而相当普及,但是并不是惟一可用的编程风格,也不总是最有效的.在本文中,我将探讨在 Java 开发实践中加入不同的编程方法 ── 即函数编程(FP). 命令式编程是一种用程序状态描述计算的方法.使用这种范型的编程人员用语句改变程序状态.这就是为什么,像 Java 这样的程序是由一系列让计算机执行的命令 (或者语句) 所组成的.另一方面, 函数编程是一种强调表达式的计算

在Lua中使用模块的基础教程

  这篇文章主要介绍了在Lua中模块的基本使用方法,是Lua入门学习中的基础知识,需要的朋友可以参考下 什么是模块? 模块是一个像,可以使用需要加载并有包含表中的单个全局命名的库.该模块可包含若干函数和变量.所有这些函数和变量被包裹在以它作为一个命名空间的表.也是一个很乖的模块有必要的规定,返回此表上所需要的. Lua模块 表中的模块的使用可以帮助我们以多种方式,使我们能够操纵模块中我们操纵任何其他lua的表相同的方式.作为操纵模块的能力的结果,它提供了额外的功能的量等语言需要特殊的机制.由于l

Python中random模块用法实例分析

  本文实例讲述了Python中random模块用法.分享给大家供大家参考.具体如下: ? 1 2 3 4 import random x = random.randint(1,4); y = random.choice(['appale','banana','cherry','durian']); print(x,y); 运行结果如下: (2, 'cherry') 不管学哪个语言,我总喜欢弄个随机数玩玩.农历十一月初六,Let's Python!!! ? 1 2 3 4 5 6 7 8 l=[

C语言中的指针和内存泄漏

引言 对于任何使用C语言的人,如果问他们C语言的最大烦恼是什么,其中许多人可能会回答说是指针和内存泄漏.这些的确是消耗了开发人员大多数调试时间的事项.指针和内存泄漏对某些开发人员来说似乎令人畏惧,但是一旦您了解了指针及其关联内存操作的基础,它们就是您在 C 语言中拥有的最强大工具. 本文将与您分享开发人员在开始使用指针来编程前应该知道的秘密.本文内容包括: 导致内存破坏的指针操作类型 在使用动态内存分配时必须考虑的检查点 导致内存泄漏的场景 如果您预先知道什么地方可能出错,那么您就能够小心避免陷

Go语言中的指针运算实例分析_Golang

本文实例分析了Go语言中的指针运算方法.分享给大家供大家参考.具体分析如下: Go语言的语法上是不支持指针运算的,所有指针都在可控的一个范围内使用,没有C语言的*void然后随意转换指针类型这样的东西.最近在思考Go如何操作共享内存,共享内存就需要把指针转成不同类型或者对指针进行运算再获取数据. 这里对Go语言内置的unsafe模块做了一个实验,发现通过unsafe模块,Go语言一样可以做指针运算,只是比C的方式繁琐一些,但是理解上是一样的. 下面是实验代码: 复制代码 代码如下: packag

让你提前认识软件开发(19):C语言中的协议及单元测试示例

第1部分 重新认识C语言 C语言中的协议及单元测试示例   [文章摘要]         在实际的软件开发项目中,经常要实现多个模块之间的通信,这就需要大家约定好相互之间的通信协议,各自按照协议来收发和解析消息.        本文以实际的程序代码为例,详细介绍了如何用C语言来实现通信协议,并基于对协议字段的判断,说明了程序单元测试的过程,为相关的开发工作提供了有益的参考. [关键词]        软件开发  协议  单元测试  C语言  字段   一.软件模块之间的协议         什么