本篇是《C++从零开始》系列的附篇。因友人一再认为《C++从零开始》系列中对指针的阐述太过简略,而提出的各个概念又杂七混八,且关于指针这一C++中的重要概念的运用少之又少,故本篇重点说明在《C++从零开始》系列中提出的数字、地址、指针等基础概念,并给出指针的语义,说明指针和数组的关系,阐述多级指针、多维数组、函数指针、数组指针、成员指针的语义及各自的运用。
数字、操作符、类型、类型修饰符
在《C++从零开始(三)》中已经说明,其实CPU连二进制数都不认识,其只能处理状态,而它能处理的状态恰好能用二进制数表示,故称CPU只认识二进制数。应注意由于CPU认识二进制数是认识其所表示的状态,并不是数学意义上的二进制数,因此CPU并不认识十进制数20.不过将20按数学规则转成二进制数10100后,运气极好地CPU的设计人员将加法指令定义成状态10100和状态10100相加将得到状态101000,而这个二进制数按数学规则转成十进制数正好是40,即CPU连加减乘除都不会,只会以不同的方式改变状态,而CPU的设计人员专门将那些状态的改变方式定义成和数学上的加减乘除一样进而使CPU表现得好像会加减乘除。
所以,为了让CPU执行一条指令,则那条指令所涉及的东西只能是二进制数,就必须有规则将给出的数学意义上的数转换成二进制数。如前面的十进制转二进制的规则,在《C++从零开始(二)》中提到的原码、补码、IEEE real*4等。而要编写C++代码,则一定要在代码中能体现上述的转换规则,并且要能在代码上体现欲被转换的数学意义上的数,这样编译器才能根据我们书写的代码来决定CPU要操作的东西的二进制表示。对此,C++中用类型表现前者,用数字体现后者,用操作符表示CPU的指令,即CPU状态的变换方式。
因此,为了让CPU执行加法指令,代码上书写加法指令对应的操作符——“+”,“+”的两侧需要接两个数字,而数字的类型决定了如何将数字所表示的数学上的数转换成二进制数。应注意数字是编译级的概念,不是代码级的概念,即无法在代码上表现数字,而只能通过操作符的计算的返回来获得数字。因为任何操作符都要返回数字(不返回数字的操作符也可以通过返回类型为void的数字来表示以满足这一说法),而最常见的一种得到数字的操作符就是通常被称作常数的东西,如6.3、5.2f、0772等。我在《C++从零开始(二)》中将其称作数字的确引起概念混淆,在此特澄清。
应注意只要是返回数字的东西就是操作符,故前面的常量也是一种操作符。对于变量、成员变量及函数,在《C++从零开始》系列中已多次强调它们都是映射元素,直接书写变量名、成员变量名和函数名将分别返回各自所映射的数字,即变量名函数名等也都是操作符。
数字是具有类型的,C++提供了自定义类型struct、class等来自定义复杂的类型,但不仅如此,C++还提供了更值得称赞的东西——类型修饰符。在《C++从零开始(五)》中已经说明,类型修饰符就是修饰类型用的,即按某种规则改变被修饰类型(称作原类型)所表征的数字转换规则。如猪血羊血和猪肉羊肉,这里的“血”和“肉”都是类型修饰符,改变其各自的原类型——“猪”和“羊”。上面感觉更像后者修饰前者而非前者修饰后者,如猪血中的“血”是主语而“猪”是定语。即类型修饰符其实是以原类型的信息来修改其自身所表征的那个数字转换规则。这就如称“血”、“肉”是一种东西一样,也说某类型是指针类型、引用类型、数组类型、函数类型等。
在《C++从零开始》系列中共提出下面几种类型修饰符——引用“&”、指针“*”、数组“[]”、函数“()”、函数调用规则“__stdcall”、偏移“<自定义类型名>::”、常量“const”和地址类型修饰符。其中的地址类型修饰符是最混乱的。
在《C++从零开始(三)》中已经说明地址在32位操作系统中就是一个数,这个数经常以32位长的二进制数表示,以唯一标识一特定内存单元。而一个数字的类型是地址类型时(因为有地址类型修饰符,就好像一个数字是数组类型时),就将这个数字所代表的数学意义上的数用二进制表示,以标识出一个内存单元,然后按照原类型的规则来解释那块内存单元及其后续单元的内容(类型的长度可能不止一个字节,而地址类型是类型修饰符,故一定有原类型)。由于变量映射的数实际是地址,故变量所映射的数字就是地址类型的。如long a;,假设a映射的是3006,当书写a = 3;时,由于a是变量名,故返回a所映射的数字3006,类型是long类型的地址类型。由于是地址类型,“=”操作符的语法检查成功(这是类型的另一个用处——语法检查,就好像动名形容词一样),执行“=”操作符的计算。
应注意C++并未提出地址类型修饰符这个概念,只是我出于语法上的完备而提出的,否则要涉及更多的无谓概念和规则,如*( p + 1 ) = 20; a[2] = 3;等的解释将复杂化,故在《C++从零开始》系列中提出地址类型的数字这个概念,旨在以尽量少的概念解释尽量多的语法。
最常用的类型修饰符——指针和数组
在《C++从零开始(五)》中已说明指针只是一种类型修饰符。一个数字是指针类型时,将这个数字所代表的数学意义上的数用二进制表示并返回。前面已说过数字的用处就是转换其代表的数为二进制数,其类型仅说明如何转换,而指针类型所代表的规则就是按数学规则变成二进制数,而不管其原类型是何种类型。由于不受原类型的影响,故指针类型总是固定长度(对成员指针则不一定),在32位操作系统上是四个字节。
如long a; long *p = &a;。假设a映射的是3006,p映射的是3010.对于*p = 3;,p这个操作符返回类型为long的指针类型的地址类型的数字3010,即这个数字的类型被两个类型修饰符两次修饰,由于最后是被地址修饰,故3010是地址类型的数字,而其原类型是long的指针类型。故*p返回类型为long类型的地址类型的数字3006,然后执行“=”操作符的计算。
这里请注意两个操作符——取内容操作符“*”和取地址操作符“&”。在《C++从零开始(五)》中也强调过,它们其实名不副实,应该叫类型转换操作符才对。即前者后接指针类型的数字,返回的数字原封不动,仅将其类型变为地址类型;后者后接地址类型的数字,返回的数字原封不动,仅将其类型变为指针类型。这有点耍小聪明的感觉,但请注意:long *p1 = 0; long *p2 = &*p1;如果“*”的操作是取内容,则&*p1将先取地址为0的内存单元的内容,这将引起内存访问违规,但实际并不会,因为“*”仅转换类型而非取内容(取内容是由地址类型的数字的计算来实现的)。
前面已说明,在指针类型的数字返回二进制数时,并不需要原类型的参与,即类型为long*的数字3006和类型为char*的数字3006返回的二进制数都一样,都是3006对应的二进制数。那么为什么要让指针是类型修饰符以带个不用的原类型?根据前面即可看出指针类型的原类型是给取内容操作符“*”用的。但它还有个用处,因为数组类型修饰符的加入,使得指针多了一个所谓的运算功能,在此先看看数组类型。
在《C++从零开始(五)》中已详细说明数组的修饰功能是将原类型的元素重复多个连续存放以此形成一个新的类型。如long a[10];,a的类型就是long[10],长度为10*sizeof(long)=40个字节,而char[7]类型所对应的长度就是7*sizeof(char)=7个字节。一个数字的类型是数组类型时,因这个数字的长度可一个字节,可一万个字节,故这个数字一定被存放在某块内存中,而数组类型的数字返回的二进制数就是其被存放的内存的首地址。所以前面提到的常数就不能返回一个数组类型的数字,因其没有给出一块内存来存放数组类型的数字。
这里有点混乱,注意数字不一定非要被内存所存储。对于long a[3] = { 45, 45, 45 };,假设a映射的数字是3000,则表示以long[3]的规则解释内存单元3000所记录的数字,这个数字的长度是3*sizeof(long)=12个字节,它的值由于数组类型是长度可变的而决定使用3000(记录它的内存的地址)来代表它,实际是3个值为45的数。所以a;将先返回long[3]类型的地址类型的数字3000,然后计算此地址类型的数字而返回其原类型的数字,由于原类型是long[3],而这个数字存放在3000所标识的内存处,故最后返回3000所对应的二进制数。
容易发现指针返回的是一个地址,数组也是一个地址,当它们原类型相同时,后者可以隐式类型转换为前者,但反之不行,因为数组还具备元素个数这个信息,即long[2]和long[3]的原类型相同,但类型不同。因此有:long a[3]; long *p = a;。这里没任何问题,假设a映射的是3000,则p的值就是3000.因此*p = 3;就是将3放到3000处存放的数组类型的数字的第0个元素中。为了放到第1个和第2个元素中,C++提供了一个所谓的指针运算功能,如下:*( p + 1 ) = 4; *( p + 2 ) = 5;。这里就把4放到第1个元素,5放到第2个元素中。对*( p + 1 ) = 4;,p返回一个long*的数字3000,而p + 1返回long*的数字3004,然后继续后续计算。同理,p + 2返回类型为long*的数字3000+2*sizeof(long)=3008.即指针只能进行整数加减,如:char *p1 = 0; p1++; p1 = p1 + 5 * 8 - 1; short *p2 = 0; p2 += 11; p2——;上面p1的值为40,p2的值也为40,因为p1的原类型是char而p2的是short.因此为了获得数组的第2个元素的值,需*( p + 2 );,这很明显地不便于阅读,为此C++专门提供了一个下标操作符“[]”,其前面接指针类型的数字,方括号中放一整型数字,将指针类型的数字换成地址类型,再将值按前面提到的指针运算规则变换,返回。如long a[4]; long *p = a;,假设a映射的是3000.则a[2] = 1;等效于*( p + 2 ) = 1;,a[2]前面接的是long*类型的数字3000(隐式类型转换,从long[4]转成long*),加2*sizeof(long),返回3008,类型则简单地变成long类型的地址类型。由于“[]”仅仅只是前面说的指针运算的简化易读版本,故也可a[-1] = 3;,其等效于*( p - 1 ) = 3;。由于“[]”前接指针,故也可p[-1] = 3;,等效于a[-1] = 3;。
算规则变换,返回。如long a[4]; long *p = a;,假设a映射的是3000.则a[2] = 1;等效于*( p + 2 ) = 1;,a[2]前面接的是long*类型的数字3000(隐式类型转换,从long[4]转成long*),加2*sizeof(long),返回3008,类型则简单地变成long类型的地址类型。由于“[]”仅仅只是前面说的指针运算的简化易读版本,故也可a[-1] = 3;,其等效于*( p - 1 ) = 3;。由于“[]”前接指针,故也可p[-1] = 3;,等效于a[-1] = 3;。