《编写高质量Python代码的59个有效方法》——第16条：考虑用生成器来改写直接返回列表的函数

第16条：考虑用生成器来改写直接返回列表的函数
如果函数要产生一系列结果，那么最简单的做法就是把这些结果都放在一份列表里，并将其返回给调用者。例如，我们要查出字符串中每个词的首字母，在整个字符串里的位置。下面这段代码，用append方法将这些词的首字母索引添加到result列表中，并在函数结束时将其返回给调用者。

输入一些范例值，以验证该函数能够正常运作：

index_words函数有两个问题。
第一个问题是，这段代码写得有点拥挤。每次找到新的结果，都要调用append方法。但我们真正应该强调的，并不是对result.append方法的调用，而是该方法给列表中添加的那个值，也就是index + 1。另外，函数首尾还各有一行代码用来创建及返回result列表。于是，在函数主体部分的约130个字符（不计空白字符）里，重要的大概只有75个。
这个函数改用生成器（generator）来写会更好。生成器是使用yield表达式的函数。调用生成器函数时，它并不会真的运行，而是会返回迭代器。每次在这个迭代器上面调用内置的next函数时，迭代器会把生成器推进到下一个yield表达式那里。生成器传给yield的每一个值，都会由迭代器返回给调用者。
下面的这个生成器函数，会产生和刚才那个函数相同的效果。

这个函数不需要包含与result列表相交互的那些代码，因而看起来比刚才那种写法清晰许多。原来那个result列表中的元素，现在都分别传给yield表达式了。调用该生成器后所返回的迭代器，可以传给内置的list函数，以将其转换为列表（相关的原理可参见本书第9条）。

index_words的第二个问题是，它在返回前，要先把所有结果都放在列表里面。如果输入量非常大，那么程序就有可能耗尽内存并崩溃。相反，用生成器改写后的版本，则可以应对任意长度的输入数据。
下面定义的这个生成器，会从文件里面依次读入各行内容，然后逐个处理每行中的单词，并产生相应结果。该函数执行时所耗的内存，由单行输入值的最大字符数来界定。

运行这个生成器函数，也能产生和原来相同的效果。

定义这种生成器函数的时候，唯一需要留意的就是：函数返回的那个迭代器，是有状态的，调用者不应该反复使用它（参见本书第17条）。
要点
使用生成器比把收集到的结果放入列表里返回给调用者更加清晰。
由生成器函数所返回的那个迭代器，可以把生成器函数体中，传给yield表达式的那些值，逐次产生出来。
无论输入量有多大，生成器都能产生一系列输出，因为这些输入量和输出量，都不会影响它在执行时所耗的内存。

时间： 2024-12-03 10:52:55

《编写高质量Python代码的59个有效方法》——第16条：考虑用生成器来改写直接返回列表的函数

《编写高质量Python代码的59个有效方法》——第16条：考虑用生成器来改写直接返回列表的函数的相关文章

《编写高质量Python代码的59个有效方法》——导读

《编写高质量Python代码的59个有效方法》——第3条：了解bytes、str与unicode的区别

《编写高质量Python代码的59个有效方法》——第2条：遵循PEP 8风格指南

《编写高质量Python代码的59个有效方法》——第17条：在参数上面迭代时，要多加小心

《编写高质量Python代码的59个有效方法》——第20条：用None和文档字符串来描述具有动态默认值的参数

《编写高质量Python代码的59个有效方法》——第9条：用生成器表达式来改写数据量较大的列表推导

《编写高质量Python代码的59个有效方法》——第18条：用数量可变的位置参数减少视觉杂讯

《编写高质量Python代码的59个有效方法》——第8条：不要使用含有两个以上表达式的列表推导

《编写高质量Python代码的59个有效方法》——第15条：了解如何在闭包里使用外围作用域中的变量