Python自学手册
本文将聚焦于那些推导式并非最佳工具的场景——至少在可读性方面是如此。我们将逐一分析多个场景,这些场景中存在比推导式更具可读性的替代方案,同时也会看到一些并不明显、完全不需要使用推导式的情况。
本文并非要让还不熟悉推导式的人望而却步;而是为我们这些(包括我自己)需要克制使用推导式的人,倡导一种适度的使用原则。
推导式的格式排版混乱
列表推导式的批评者常常说它难以阅读。他们说得没错,很多推导式确实可读性很差。有时候,只需优化排版格式,就能让推导式变得更易读。
来看这个函数中的推导式:
pythondef get_factors(dividend):"""返回给定数字的所有因数列表。"""return [n for n in range(1, dividend+1) if dividend % n == 0] |
我们可以通过添加合适的换行,让这个推导式更易读:
pythondef get_factors(dividend):"""返回给定数字的所有因数列表。"""return [nfor n in range(1, dividend+1)if dividend % n == 0] |
代码越短并不一定意味着可读性越强。空格是你的好帮手,尤其是在编写推导式时。
一般来说,我更喜欢将大多数推导式分行排版,采用上面的缩进风格。虽然我有时也会写单行推导式,但不会默认使用这种方式。
编写难以阅读的推导式
从技术上讲,有些循环确实可以写成推导式,但如果其中包含大量逻辑,就不应该这么做了。
来看这个推导式:
pythonfizzbuzz = [f'fizzbuzz {n}' if n % 3 == 0 and n % 5 == 0else f'fizz {n}' if n % 3 == 0else f'buzz {n}' if n % 5 == 0else nfor n in range(100)] |
这个推导式等价于下面的for循环:
pythonfizzbuzz = []for n in range(100):fizzbuzz.append(f'fizzbuzz {n}' if n % 3 == 0 and n % 5 == 0else f'fizz {n}' if n % 3 == 0else f'buzz {n}' if n % 5 == 0else n) |
推导式和for循环都使用了三个嵌套的行内if语句(Python的三元运算符)。
下面是更具可读性的写法,使用if-elif-else结构:
pythonfizzbuzz = []for n in range(100):if n % 3 == 0 and n % 5 == 0:fizzbuzz.append(f'fizzbuzz {n}')elif n % 3 == 0:fizzbuzz.append(f'fizz {n}')elif n % 5 == 0:fizzbuzz.append(f'buzz {n}')else:fizzbuzz.append(n) |
仅仅因为存在将代码写成推导式的方式,并不意味着你就应该这么做。
在推导式中使用任何复杂逻辑都要谨慎,即使是单个行内if语句:
pythonnumber_things = [n // 2 if n % 2 == 0 else n * 3for n in numbers] |
如果在这种情况下你确实更喜欢使用推导式,至少要考虑空格或括号是否能提升可读性:
pythonnumber_things = [(n // 2 if n % 2 == 0 else n * 3)for n in numbers] |
同时也可以考虑,将部分逻辑提取到单独的函数中是否能提升可读性(在这个略显简单的例子中可能效果不明显)。
pythonnumber_things = [even_odd_number_switch(n)for n in numbers] |
单独的函数是否能提升可读性,取决于该操作的重要性、复杂度,以及函数名能否清晰传达操作的含义。
伪装成推导式的循环
有时你会遇到这样的代码:使用推导式语法,但违背了推导式的设计初衷。
例如,这段代码看起来像一个推导式:
python[print(n) for n in range(1, 11)] |
但它的作用却不符合推导式的用途。我们在将推导式用于它本不应该承担的功能。
如果在Python交互环境中执行这个推导式,你就会明白我的意思:
python>>> [print(n) for n in range(1, 11)]12345678910[None, None, None, None, None, None, None, None, None, None] |
我们想要打印1到10的所有数字,确实做到了。但这个推导式语句还返回了一个包含None值的列表,而我们很快就丢弃了这个列表。
推导式的作用是构建列表:这是它们的设计目的。我们构建了一个包含print函数返回值的列表,而print函数的返回值是None。
但我们并不关心推导式构建的列表:我们只关心它的副作用(打印数字)。
我们可以改用下面的写法:
pythonfor n in range(1, 11):print(n) |
列表推导式用于遍历可迭代对象并构建新列表,而for循环则用于遍历可迭代对象执行几乎任何你需要的操作。
当我在代码中看到列表推导式时,我会立即认为我们正在构建一个新列表(因为这是它们的用途)。如果你将推导式用于构建新列表之外的目的,会让阅读你代码的人感到困惑。
如果你不关心是否构建新列表,就不要使用推导式。
存在更专用工具时仍使用推导式
对于许多问题,专用工具比通用的for循环更合适。但推导式并不总是手头任务的最佳专用工具。
我见过也写过很多类似这样的代码:
pythonimport csvwith open('populations.csv') as csv_file:lines = [rowfor row in csv.reader(csv_file)] |
这个推导式有点像“恒等推导式”,它的唯一目的是遍历给定的可迭代对象(csv.reader(csv_file))并将其转换为列表。
但在Python中,我们有一个更专用的工具来完成这个任务:list构造函数。Python的list构造函数可以为我们完成所有的遍历和列表创建工作:
pythonimport csvwith open('populations.csv') as csv_file:lines = list(csv.reader(csv_file)) |
推导式是一种专用工具,用于遍历可迭代对象、构建新列表,同时对每个元素进行修改和/或筛选。list构造函数也是一种专用工具,用于遍历可迭代对象、构建新列表,但不做任何修改。
如果你在构建新列表时,不需要筛选元素或对元素进行映射转换,就不需要使用推导式:你需要的是list构造函数。
下面这个推导式将遍历zip得到的每个元组行转换为列表:
pythondef transpose(matrix):"""返回给定列表(矩阵)的转置版本。"""return [[n for n in row]for row in zip(*matrix)] |
我们也可以使用list构造函数来实现:
pythondef transpose(matrix):"""返回给定列表(矩阵)的转置版本。"""return [list(row)for row in zip(*matrix)] |
无论何时看到这样的推导式:
pythonmy_list = [x for x in some_iterable] |
你都可以改用下面的写法:
pythonmy_list = list(some_iterable) |
这一点也适用于字典推导式和集合推导式。
这也是我过去经常写的代码:
pythonstates = [('AL', 'Alabama'),('AK', 'Alaska'),('AZ', 'Arizona'),('AR', 'Arkansas'),('CA', 'California'),# ...]abbreviations_to_names = {abbreviation: namefor abbreviation, name in states} |
这里我们遍历一个包含二元元组的列表,并将其转换为字典。
这个任务正是dict构造函数的设计目的:
pythonabbreviations_to_names = dict(states) |
内置的list和dict构造函数并不是唯一可以替代推导式的工具。标准库和第三方库中也包含一些工具,有时比推导式更适合你的遍历需求。
下面这个生成器表达式用于计算“可迭代对象的可迭代对象”中所有数字的和:
pythondef sum_all(number_lists):"""返回给定列表(包含多个数字列表)中所有数字的总和。"""return sum(nfor numbers in number_listsfor n in numbers) |
下面是使用itertools.chain实现的相同功能:
pythonfrom itertools import chaindef sum_all(number_lists):"""返回给定列表(包含多个数字列表)中所有数字的总和。"""return sum(chain.from_iterable(number_lists)) |
何时使用推导式、何时使用替代方案,并不总是一目了然。
我经常在使用itertools.chain还是推导式之间犹豫不决。通常我会两种写法都试一下,然后选择看起来更清晰的那种。
对于许多编程结构(包括推导式),可读性往往与具体问题相关。
不必要的额外操作
有时你会看到一些推导式,它们不需要被其他构造替代,而是应该被完全移除,只保留它们所遍历的可迭代对象。
下面这段代码打开一个包含单词的文件(每行一个单词),将文件内容存储在内存中,并统计每个单词出现的次数:
pythonfrom collections import Counterword_counts = Counter(wordfor word in open('word_list.txt').read().splitlines()) |
我们在这里使用了生成器表达式,但其实没有必要。下面的写法同样有效:
pythonfrom collections import Counterword_counts = Counter(open('word_list.txt').read().splitlines()) |
我们之前先遍历列表将其转换为生成器,再将生成器传递给Counter类——这是不必要的操作!Counter类接受任何可迭代对象:它不在乎这个可迭代对象是列表、生成器、元组还是其他类型。
再看另一个不必要的推导式:
pythonwith open('word_list.txt') as words_file:lines = [line for line in words_file]for line in lines:if 'z' in line:print('z word', line, end='') |
我们遍历words_file,将其转换为行列表,然后只遍历一次这个列表。这种转换为列表的操作是不必要的。
我们可以直接遍历words_file:
pythonwith open('word_list.txt') as words_file:for line in words_file:if 'z' in line:print('z word', line, end='') |
如果我们只打算遍历一次可迭代对象,就没有必要将其转换为列表。
在Python中,我们通常更关心某个对象是否是可迭代对象,而不是它是否是列表。
注意不要在不需要的时候创建新的可迭代对象:如果你只打算遍历一次可迭代对象,就直接使用你已有的可迭代对象即可。
什么时候应该使用推导式?
那么,什么时候才真正应该使用推导式呢?
简单但不够精确的答案是:只要你能将代码写成下面这种可“复制粘贴”的循环格式,并且没有其他更适合简化代码的工具,就可以考虑使用列表推导式。
pythonnew_things = []for ITEM in old_things:if condition_based_on(ITEM):new_things.append(some_operation_on(ITEM)) |
这个循环可以重写为下面的推导式:
pythonnew_things = [some_operation_on(ITEM)for ITEM in old_thingsif condition_based_on(ITEM)] |
更复杂的答案是:只要推导式有意义,就可以考虑使用它。这听起来像一句废话,但“什么时候应该使用推导式”这个问题确实没有唯一的答案。
例如,下面这个for循环看起来似乎无法用推导式重写:
pythondef is_prime(candidate):for n in range(2, candidate):if candidate % n == 0:return Falsereturn True |
但实际上,如果我们知道如何使用内置的all函数,就可以用生成器表达式重写这个循环:
pythondef is_prime(candidate):return all(candidate % n != 0for n in range(2, candidate)) |
我曾专门写过一篇关于any和all函数的文章,介绍它们如何与生成器表达式完美配合。但不仅仅是any和all函数,很多函数都适合与生成器表达式结合使用。
下面这段代码也有类似的情况:
pythondef sum_of_squares(numbers):total = 0for n in numbers:total += n**2return total |
这里没有append操作,也没有构建新的可迭代对象。但如果我们创建一个平方数的生成器,就可以将其传递给内置的sum函数,得到相同的结果:
pythondef sum_of_squares(numbers):return sum(n**2 for n in numbers) |
因此,除了“能否将循环复制粘贴为重写推导式”的判断标准外,还有一个更模糊的判断标准:你的代码是否可以通过“生成器表达式+接受可迭代对象的函数/类”来优化?
任何接受可迭代对象作为参数的函数或类,都可能适合与生成器表达式结合使用。
合理使用列表推导式
列表推导式可以让你的代码更具可读性(如果你不相信,可以看看我“易懂的推导式”演讲中的例子),但它确实可能被滥用。
列表推导式是一种专用工具,用于解决特定问题。list和dict构造函数是更专用的工具,用于解决更具体的问题。
循环是一种通用工具,适用于那些不适合使用推导式或其他专用遍历工具的场景。
像any、all、sum这样的函数,以及Counter、chain这样的类,都是接受可迭代对象的工具,它们与推导式配合得非常好,有时甚至可以完全替代推导式。
记住,推导式的唯一目的是:从旧的可迭代对象创建新的可迭代对象,同时对值进行轻微调整和/或筛选出不符合特定条件的值。推导式是一个很棒的工具,但它不是你唯一的工具。不要忘记list和dict构造函数,当你的推导式变得难以维护时,一定要考虑使用for循环。