大家好,我是沉默小皮,让大家更容易的学习Python3,今天我们来看下:迭代器与生成器。
一、先聊聊迭代器到底是什么
咱们平时写for循环遍历列表,那个列表本身不是迭代器,但for循环在后台会悄悄把它转成迭代器。
简单理解:迭代器就像是一个“遥控器”,能让你逐个访问集合里的元素,而且还能记住当前访问到哪个位置了。
# 给你一个水果列表
fruits = ["苹果", "香蕉", "橘子", "葡萄"]
# 用 iter() 把它变成一个迭代器
fruit_iterator = iter(fruits)
# 用 next() 一个一个取出来
print(next(fruit_iterator)) # 苹果
print(next(fruit_iterator)) # 香蕉
print(next(fruit_iterator)) # 橘子
print(next(fruit_iterator)) # 葡萄
# 再来一次就没了,会报 StopIteration 异常
# print(next(fruit_iterator)) # 报错!
迭代器的三个特点:
- 惰性取值:不会一次性把所有元素都准备好,而是你问它要的时候它才给下一个
可能有朋友会问:“我直接for fruit in fruits不是更方便吗?搞个迭代器出来多此一举吧?”
其实for循环本身就是迭代器的语法糖。上面那段for fruit in fruits,Python在底层做的正是:先iter(fruits)拿到迭代器,然后不断next()直到捕获StopIteration。理解迭代器,你就理解了for循环的底层原理。
二、除了for循环,还能怎么用迭代器?
如果你不想用for,也可以自己用while循环配合next()来手动控制:
fruits = ["苹果", "香蕉", "橘子", "葡萄"]
it = iter(fruits)
whileTrue:
try:
fruit = next(it)
print(f"处理:{fruit}")
except StopIteration:
print("所有水果都处理完了")
break
这种写法在你需要“有条件地提前终止”或者“两个迭代器交替取值”时特别有用。
三、自己动手写一个迭代器
如果你想让自己定义的类也能被for循环遍历,就需要实现两个特殊方法:__iter__()和__next__()。
# 场景:实现一个“周几”迭代器,从周一开始,最多指定天数
classWeekIterator:
def__init__(self, max_days):
self.weeks = ["周一", "周二", "周三", "周四", "周五", "周六", "周日"]
self.max_days = max_days # 最多迭代多少天
self.index = 0
def__iter__(self):
# 返回迭代器对象本身
return self
def__next__(self):
if self.index >= self.max_days:
# 超过次数了,抛出异常终止迭代
raise StopIteration
day = self.weeks[self.index % 7] # 超过7天就循环
self.index += 1
return day
# 使用这个迭代器:取前10天
week_iter = WeekIterator(10)
for day in week_iter:
print(day, end=' ') # 周一 周二 周三 周四 周五 周六 周日 周一 周二 周三
这里我踩过坑:刚学的时候总是忘记在迭代结束时raise StopIteration。如果没有这个异常,for循环会永远执行下去,而且你还不知道为什么。记住:__next__方法里必须有一个明确的出口来触发StopIteration。
四、生成器:Python给你的“偷懒神器”
看完上面自己实现迭代器的代码,你可能觉得:又要写__iter__,又要写__next__,还要手动维护状态,好麻烦啊!
生成器就是用来解决这个麻烦的——它让你用写普通函数的方式,就能得到一个迭代器。
4.1 生成器的核心:yield
只要函数里用到了yield关键字,这个函数就不再是普通函数了,而是一个生成器函数。调用它不会立刻执行函数体,而是返回一个生成器对象。
# 场景:倒计时功能
defcountdown(n):
print("开始倒计时啦")
while n > 0:
yield n # 在这里“暂停”,把n返回给调用者
n -= 1
print("倒计时结束!")
# 调用生成器函数,得到一个生成器对象
cd = countdown(3)
print(cd) # <generator object countdown at 0x...>
# 用 next() 一步步触发
print(next(cd)) # 打印:开始倒计时啦 \n 3
print(next(cd)) # 2
print(next(cd)) # 1
print(next(cd)) # 打印:倒计时结束! \n 然后抛出 StopIteration
yield的神奇之处:
- 函数执行到
yield就“暂停”了,但函数内的局部变量(比如这里的n)会被保留 - 下次调用
next()时,从上次暂停的地方继续执行下一行代码 - 这种“暂停-恢复”的能力,让一个函数可以分多次“吐出”结果
4.2 生成器 vs 普通函数:用个例子说清楚
假设你需要产生前100万个整数:
# 普通函数:一次性把所有结果放到列表里返回
defget_numbers_normal(n):
result = []
for i in range(n):
result.append(i)
return result
# 生成器函数:边产生边给,不存列表
defget_numbers_generator(n):
for i in range(n):
yield i
# 测试内存占用(不要在生产环境这么测,这里示意)
# 普通方式:会创建一个包含100万个整数的列表,内存占用很大
nums_normal = get_numbers_normal(1_000_000)
# 生成器方式:几乎不占内存,只是产生了一个生成器对象
nums_gen = get_numbers_generator(1_000_000)
对于调用方来说,两种方式都可以用for循环遍历。但背后的内存消耗天差地别。
五、生成器的实战价值
5.1 处理超大文件(最经典的场景)
# 场景:分析一个10GB的服务器日志,找出所有包含"ERROR"的行
defread_large_file(file_path):
with open(file_path, 'r', encoding='utf-8') as f:
for line in f:
# 每次只给出一行,不一次性加载整个文件
yield line.strip()
# 使用生成器逐条处理
for log_line in read_large_file("huge_server.log"):
if"ERROR"in log_line:
print(f"发现错误: {log_line[:100]}...") # 只打印前100个字符
如果用普通方式把10GB文件全部读进内存,电脑直接卡死。生成器让你能够“边读边处理”,内存占用始终只有一行文本的大小。
5.2 表示无限序列
有些序列在理论上是无限的,比如所有自然数、斐波那契数列。用列表你永远存不下,但生成器可以:
# 斐波那契数列生成器(无限版本)
deffibonacci():
a, b = 0, 1
whileTrue: # 无限循环
yield a
a, b = b, a + b
# 只取前10个
fib = fibonacci()
for i in range(10):
print(next(fib), end=' ') # 0 1 1 2 3 5 8 13 21 34
# 想取第1000个也没问题,不会提前计算前面的所有值
5.3 生成器表达式:更简洁的写法
如果你觉得写一个完整的yield函数还有点重,可以用生成器表达式。它长得像列表推导式,但把方括号换成圆括号:
# 列表推导式:一次性生成所有平方数,占用内存
squares_list = [x**2for x in range(10000)]
# 生成器表达式:惰性求值,几乎不占内存
squares_gen = (x**2for x in range(10000))
# 用的时候再取
for val in squares_gen:
if val > 100:
break
print(val, end=' ') # 0 1 4 9 16 25 36 49 64 81 100
这里我踩过坑:有一次我写代码解析一个几万行的配置文件,用了列表推导式,程序内存飙升到几百兆。后来改成生成器表达式,内存降到几十KB。从那以后,只要处理的数据我不确定大小,都先用生成器表达式,发现需要多次遍历再转成列表也不迟。
六、几个容易混淆的点
6.1 生成器函数 vs 普通函数:调用方式一样,行为完全不同
defnormal_func():
return [1, 2, 3]
defgen_func():
yield1
yield2
yield3
# 调用普通函数:直接拿到返回值
result = normal_func()
print(result) # [1, 2, 3]
# 调用生成器函数:拿到的是生成器对象,函数体还没执行
gen = gen_func()
print(gen) # <generator object gen_func at 0x...>
print(list(gen)) # [1, 2, 3] 需要迭代才能拿到值
6.2 生成器只能迭代一次
gen = (x for x in range(5))
# 第一次迭代
print(list(gen)) # [0, 1, 2, 3, 4]
# 第二次迭代
print(list(gen)) # [] 空的!因为生成器已经“耗尽”了
# 想再用?重新创建一个生成器
gen2 = (x for x in range(5))
几点实在的经验
不要把生成器和列表搞混
生成器没有长度、不支持索引、不能切片、不能重复迭代。如果你需要这些功能,请用列表。生成器的价值是用“一次性遍历”换“极低内存”。
StopIteration异常是正常流程,不是错误
它只是告诉调用方“没数据了”。你自己写迭代器或生成器时,不需要手动捕获它,for循环会帮你处理。只有在手动调用next()时才需要关注。
生成器里的return不等于函数结束
在生成器函数里,return会触发StopIteration异常,同时return的值会作为异常的参数。但实际开发中,生成器里很少用return,更常见的做法是让循环自然结束或者用if判断主动return来终止。
生成器的性能优势主要体现在内存,而不是速度
生成器不会让你的代码跑得更快(甚至可能比列表推导式稍慢一点点)。它的价值是用可接受的执行时间换宝贵的内存空间。内存不够时,生成器是你的救命稻草。
调试生成器时有点麻烦
生成器不支持断点调试时直接看内部状态(因为它是懒加载的)。如果生成器逻辑复杂,建议先写成普通函数调试好,再转成生成器版本。或者把生成器里的yield临时改成print,看看到底产生了哪些值。