第15条:了解如何在闭包里使用外围作用域中的变量
假如有一份列表,其中的元素都是数字,现在要对其排序,但排序时,要把出现在某个群组内的数字,放在群组外的那些数字之前。这种用法在绘制用户界面时候可能会遇到,我们可以用这个办法把重要的消息或意外的事件优先显示在其他内容前面。
实现该功能的一种常见做法,是在调用列表的sort方法时,把辅助函数传给key参数。这个辅助函数的返回值,将会用来确定列表中各元素的顺序。辅助函数可以判断受测元素是否处在重要群组中,并据此返回相应的排序关键字(sort key)。
这个函数能够应对比较简单的输入值。
这个函数之所以能够正常运作,是基于下列三个原因:
Python支持闭包(closure):闭包是一种定义在某个作用域中的函数,这种函数引用了那个作用域里面的变量。helper函数之所以能够访问sort_priority的group参数,原因就在于它是闭包。
Python的函数是一级对象(f?irst-class object),也就是说,我们可以直接引用函数、把函数赋给变量、把函数当成参数传给其他函数,并通过表达式及if语句对其进行比较和判断,等等。于是,我们可以把helper这个闭包函数,传给sort方法的key参数。
Python使用特殊的规则来比较两个元组。它首先比较各元组中下标为0的对应元素,如果相等,再比较下标为1的对应元素,如果还是相等,那就继续比较下标为2的对应元素,依次类推。
这个sort_priority函数如果能够改进一下,就更好了,它应该返回一个值,用来表示用户界面里是否出现了优先级较高的元件,使得该函数的调用者,可以根据这个返回值做出相应的处理。添加这样的功能,看似非常简单。既然该函数里的闭包函数,能够判断受测数字是否处在群组内,那么不妨在发现优先级较高的元件时,从闭包函数中翻转某个标志变量,然后令sort_priority函数把经过闭包修改的那个标志变量,返回给调用者。
我们先试试下面这种简单的写法:
用刚才那些输入数据,来运行这个函数:
排序结果是对的,但是found值不对。numbers里面的某些数字确实包含在group中,可是函数却返回了False。这是为什么呢?
在表达式中引用变量时,Python解释器将按如下顺序遍历各作用域,以解析该引用:
1)当前函数的作用域。
2)任何外围作用域(例如,包含当前函数的其他函数)。
3)包含当前代码的那个模块的作用域(也叫全局作用域,global scope)。
4)内置作用域(也就是包含len及str等函数的那个作用域)。
如果上面这些地方都没有定义过名称相符的变量,那就抛出NameError异常。
给变量赋值时,规则有所不同。如果当前作用域内已经定义了这个变量,那么该变量就会具备新值。若是当前作用域内没有这个变量,Python则会把这次赋值视为对该变量的定义。而新定义的这个变量,其作用域就是包含赋值操作的这个函数。
上面所说的这种赋值行为,可以解释sort_priority2函数的返回值错误的原因。将found变量赋值为True,是在helper闭包里进行的。于是,闭包中的这次赋值操作,就相当于在helper内定义了名为found的新变量,而不是给sort_priority2中的那个found赋值。
这种问题有时称为作用域bug(scoping bug),它可能会使Python新手感到困惑。其实,Python语言是故意要这么设计的。这样做可以防止函数中的局部变量污染函数外面的那个模块。假如不这么做,那么函数里的每个赋值操作,都会影响外围模块的全局作用域。那样不仅显得混乱,而且由于全局变量还会与其他代码产生交互作用,所以可能引发难以探查的bug。
1.?获取闭包内的数据
Python 3中有一种特殊的写法,能够获取闭包内的数据。我们可以用nonlocal语句来表明这样的意图,也就是:给相关变量赋值的时候,应该在上层作用域中查找该变量。nonlocal的唯一限制在于,它不能延伸到模块级别,这是为了防止它污染全局作用域。
下面用nonlocal来实现这个函数:
nonlocal语句清楚地表明:如果在闭包内给该变量赋值,那么修改的其实是闭包外那个作用域中的变量。这与global语句互为补充,global用来表示对该变量的赋值操作,将会直接修改模块作用域里的那个变量。
然而,nonlocal也会像全局变量那样,遭到滥用,所以,建议大家只在极其简单的函数里使用这种机制。nonlocal的副作用很难追踪,尤其是在比较长的函数中,修饰某变量的nonlocal语句可能和修改该变量的赋值操作离得比较远,从而导致代码更加难以理解。
如果使用nonlocal的那些代码,已经写得越来越复杂,那就应该将相关的状态封装成辅助类(helper class)。下面定义的这个类,与nonlocal所达成的功能相同。它虽然有点长,但是理解起来相当容易(其中有个名叫__call__的特殊方法,详情参见本书第23条)。
2.?Python 2中的值
不幸的是,Python 2不支持nonlocal关键字。为了实现类似的功能,我们需要利用Python的作用域规则来解决。这个做法虽然不太优雅,但已经成了一种Python编程习惯。
运行上面这段代码时,Python要解析found变量的当前值,于是,它会按照刚才所讲的变量搜寻规则,在上级作用域中查找这个变量。上级作用域中的found变量是个列表,由于列表本身是可供修改的(mutable,可变的),所以获取到这个found列表后,我们就可以在闭包里面通过found[0] = True语句,来修改found的状态。这就是该技巧的原理。
上级作用域中的变量是字典(dictionary)、集(set)或某个类的实例时,这个技巧也同样适用。
要点
对于定义在某作用域内的闭包来说,它可以引用这些作用域中的变量。
使用默认方式对闭包内的变量赋值,不会影响外围作用域中的同名变量。
在Python 3中,程序可以在闭包内用nonlocal语句来修饰某个名称,使该闭包能够修改外围作用域中的同名变量。
在Python 2中,程序可以使用可变值(例如,包含单个元素的列表)来实现与nonlocal语句相仿的机制。
除了那种比较简单的函数,尽量不要用nonlocal语句。