2.6 总结
本章首先展示了Python的关键字列表,并描述了Python标识符的命名原则。由于Python对Unicode的支持,因此Python标识符不局限于来自小字符集(比如ASCII或Latin-1)的子集。
我们也描述了Python的int数据类型,该类型与大多数其他语言中的类似类型有所差别,因为其没有内在的大小限制。Python整数的大小取决于内存可以允许的最大数字,操纵由数百个数字组成的数字也是完全可行的。Python大多数基本类型都是固定的,但是实际上很少会有真正的影响,因为借助于增强的赋值操作符(+=、*=、-=、/=以及其他),我们可以使用非常自然的语法,而在幕后,Python会创建结果对象并将变量重新绑定到其上。整数字面值通常写为十进制数,但也可以使用0b为前缀写为二进制字面值、使用0o为前缀写为八进制字面值、使用0x为前缀写为十六进制字面值。
在使用/对两个整数进行除法操作时,所得结果总是一个浮点数,这与很多广泛使用的其他语言是不同的,但有助于避免在除法操作进行削减时某些微妙的bug。(如果需要整数除法,可以使用//操作符。)
Python有一种bool数据类型,其中可以存放True或False。Python提供了3个逻辑操作符:and、or、not。其中,两个二元操作符(and与or)使用的是short-circuit逻辑。
Python中有3种可用的浮点数:float、complex与decimal.Decimal。最常用的是float,这是一个双精度的浮点数,其准确的数值型特征依赖于Python构建是使用的底层C、C#或Java库。复数使用两个浮点数表示,一个存放的是实数部分,另一个存放的是虚数部分。decimal.Decimal类型是由decimal模块提供的,这种数字默认小数点后有28位的精度,但可以根据需要增加或减少。
所有三种浮点类型都可用于适当的内置的数学操作符与函数。此外,math模块提供了各种三角函数、双曲线函数与对数函数,可用于处理浮点数;cmath模块提供了类似的函数集,可用于处理复数。
本章大部分内容都针对的是字符串。Python的字符串字面值可以使用单引号或双引号创建,或使用三引号包含的字符串(如果需要在其中包含换行与引号,不拘形式)。各种转义序列可用于插入特殊字符,比如制表符(\t)与换行(\n),也可以插入Unicode字符(使用十六进制转义与Unicode字符名)。虽然字符串也支持其他Python类型的相同的比较操作符,但是我们也注意到,包含非英语字符的字符串排序时容易出现问题。
由于字符串是序列,因此,通过简单但强大的语法,分片操作符([])也可以用于字符串分片与步距。字符串也可以使用+操作符连接,使用操作符复制,我们也可以使用这两个操作符的增强赋值版本(+=与=)(尽管str.join()方法更常用于连接)。字符串有很多方法,包括有些用于测试字符串属性的(比如str.isspace()与str.isalpha()),有些用于改变字母大小写的(比如str.lower()与str.title()),有些用于搜索的(比如str.find()与str.index()),还有很多其他方法。
Python对字符串的支持是非常优秀的,使得我们可以方便地搜索、提取、比较整个字符串或部分字符串,替换字符或字符串,或者将字符串分割为子字符串列表,或者将字符串列表连接为一个单一的字符串。
或许功能最丰富的字符串方法是str.format(),该方法用于使用替换字段与变量来创建字符串,并使用格式化规约来精确地定义每个字段(将被某个值替代)的特性。替换字段名称语法允许我们使用位置参数或名称(用于关键字参数)来存取方法的参数,也可以使用索引、键或属性名来存取参数项或属性。格式化规约允许我们制定填充字符、对齐方式以及最小字段宽度。而且,对于数字,我们可以控制其符号的输出方式;对于浮点数,我们可以指定小数点后的数字个数,以及使用标准表示还是指数表示。
我们也讨论了字符编码的复杂问题。默认情况下,Python的.py文件使用Unicode UTF-8编码,因此可以包含注释、标识符以及数字(可以以任何人类语言写入)。使用str.encode()方法,可以将字符串转换为使用特定编码表示的字节序列。当前使用的字符编码的广泛性有时会带来不便,但是UTF-8正在迅速成为普通文本文件的事实上的标准(也已成为XML文件的默认编码),因此,这种不便在将来会逐渐消减。
除了本章讲述的数据类型之外,Python还提供了两种内置的数据类型,即bytes与bytearray,两者都将在第7章讲述。Python还提供了几种组合数据类型,有些是内置的,有些是来自标准库的。在下一章中,我们将了解Python最重要的几种组合数据类型。