当前位置：首页>python>别再傻傻一次性加载数据了!Python生成器让你节省99%的内存

别再傻傻一次性加载数据了!Python生成器让你节省99%的内存

2026-07-01 20:37:04

大家好，我是沉默小皮，让大家更容易的学习Python3，今天我们来看下：迭代器与生成器。

一、先聊聊迭代器到底是什么

咱们平时写for循环遍历列表，那个列表本身不是迭代器，但for循环在后台会悄悄把它转成迭代器。

简单理解：迭代器就像是一个“遥控器”，能让你逐个访问集合里的元素，而且还能记住当前访问到哪个位置了。

# 给你一个水果列表
fruits = ["苹果", "香蕉", "橘子", "葡萄"]

# 用 iter() 把它变成一个迭代器
fruit_iterator = iter(fruits)

# 用 next() 一个一个取出来
print(next(fruit_iterator))  # 苹果
print(next(fruit_iterator))  # 香蕉
print(next(fruit_iterator))  # 橘子
print(next(fruit_iterator))  # 葡萄

# 再来一次就没了，会报 StopIteration 异常
# print(next(fruit_iterator))  # 报错！

迭代器的三个特点：

只能往前：你没办法回到上一个元素
惰性取值：不会一次性把所有元素都准备好，而是你问它要的时候它才给下一个
一次性：遍历完就结束了，想再遍历一次得重新创建

可能有朋友会问：“我直接for fruit in fruits不是更方便吗？搞个迭代器出来多此一举吧？”

其实for循环本身就是迭代器的语法糖。上面那段for fruit in fruits，Python在底层做的正是：先iter(fruits)拿到迭代器，然后不断next()直到捕获StopIteration。理解迭代器，你就理解了for循环的底层原理。

二、除了for循环，还能怎么用迭代器？

如果你不想用for，也可以自己用while循环配合next()来手动控制：

fruits = ["苹果", "香蕉", "橘子", "葡萄"]
it = iter(fruits)

whileTrue:
try:
        fruit = next(it)
        print(f"处理：{fruit}")
except StopIteration:
        print("所有水果都处理完了")
break

这种写法在你需要“有条件地提前终止”或者“两个迭代器交替取值”时特别有用。

三、自己动手写一个迭代器

如果你想让自己定义的类也能被for循环遍历，就需要实现两个特殊方法：__iter__()和__next__()。

# 场景：实现一个“周几”迭代器，从周一开始，最多指定天数
classWeekIterator:
def__init__(self, max_days):
        self.weeks = ["周一", "周二", "周三", "周四", "周五", "周六", "周日"]
        self.max_days = max_days  # 最多迭代多少天
        self.index = 0

def__iter__(self):
# 返回迭代器对象本身
return self

def__next__(self):
if self.index >= self.max_days:
# 超过次数了，抛出异常终止迭代
raise StopIteration

        day = self.weeks[self.index % 7]  # 超过7天就循环
        self.index += 1
return day

# 使用这个迭代器：取前10天
week_iter = WeekIterator(10)
for day in week_iter:
    print(day, end=' ')  # 周一 周二 周三 周四 周五 周六 周日 周一 周二 周三

这里我踩过坑：刚学的时候总是忘记在迭代结束时raise StopIteration。如果没有这个异常，for循环会永远执行下去，而且你还不知道为什么。记住：__next__方法里必须有一个明确的出口来触发StopIteration。

四、生成器：Python给你的“偷懒神器”

看完上面自己实现迭代器的代码，你可能觉得：又要写__iter__，又要写__next__，还要手动维护状态，好麻烦啊！

生成器就是用来解决这个麻烦的——它让你用写普通函数的方式，就能得到一个迭代器。

4.1 生成器的核心：yield

只要函数里用到了yield关键字，这个函数就不再是普通函数了，而是一个生成器函数。调用它不会立刻执行函数体，而是返回一个生成器对象。

# 场景：倒计时功能
defcountdown(n):
    print("开始倒计时啦")
while n > 0:
yield n  # 在这里“暂停”，把n返回给调用者
        n -= 1
    print("倒计时结束！")

# 调用生成器函数，得到一个生成器对象
cd = countdown(3)
print(cd)  # <generator object countdown at 0x...>

# 用 next() 一步步触发
print(next(cd))  # 打印：开始倒计时啦 \n 3
print(next(cd))  # 2
print(next(cd))  # 1
print(next(cd))  # 打印：倒计时结束！ \n 然后抛出 StopIteration

yield的神奇之处：

函数执行到yield就“暂停”了，但函数内的局部变量（比如这里的n）会被保留
下次调用next()时，从上次暂停的地方继续执行下一行代码
这种“暂停-恢复”的能力，让一个函数可以分多次“吐出”结果

4.2 生成器 vs 普通函数：用个例子说清楚

假设你需要产生前100万个整数：

# 普通函数：一次性把所有结果放到列表里返回
defget_numbers_normal(n):
    result = []
for i in range(n):
        result.append(i)
return result

# 生成器函数：边产生边给，不存列表
defget_numbers_generator(n):
for i in range(n):
yield i

# 测试内存占用（不要在生产环境这么测，这里示意）
# 普通方式：会创建一个包含100万个整数的列表，内存占用很大
nums_normal = get_numbers_normal(1_000_000)

# 生成器方式：几乎不占内存，只是产生了一个生成器对象
nums_gen = get_numbers_generator(1_000_000)

对于调用方来说，两种方式都可以用for循环遍历。但背后的内存消耗天差地别。

五、生成器的实战价值

5.1 处理超大文件（最经典的场景）

# 场景：分析一个10GB的服务器日志，找出所有包含"ERROR"的行
defread_large_file(file_path):
with open(file_path, 'r', encoding='utf-8') as f:
for line in f:
# 每次只给出一行，不一次性加载整个文件
yield line.strip()

# 使用生成器逐条处理
for log_line in read_large_file("huge_server.log"):
if"ERROR"in log_line:
        print(f"发现错误: {log_line[:100]}...")  # 只打印前100个字符

如果用普通方式把10GB文件全部读进内存，电脑直接卡死。生成器让你能够“边读边处理”，内存占用始终只有一行文本的大小。

5.2 表示无限序列

有些序列在理论上是无限的，比如所有自然数、斐波那契数列。用列表你永远存不下，但生成器可以：

# 斐波那契数列生成器（无限版本）
deffibonacci():
    a, b = 0, 1
whileTrue:  # 无限循环
yield a
        a, b = b, a + b

# 只取前10个
fib = fibonacci()
for i in range(10):
    print(next(fib), end=' ')  # 0 1 1 2 3 5 8 13 21 34

# 想取第1000个也没问题，不会提前计算前面的所有值

5.3 生成器表达式：更简洁的写法

如果你觉得写一个完整的yield函数还有点重，可以用生成器表达式。它长得像列表推导式，但把方括号换成圆括号：

# 列表推导式：一次性生成所有平方数，占用内存
squares_list = [x**2for x in range(10000)]

# 生成器表达式：惰性求值，几乎不占内存
squares_gen = (x**2for x in range(10000))

# 用的时候再取
for val in squares_gen:
if val > 100:
break
    print(val, end=' ')  # 0 1 4 9 16 25 36 49 64 81 100

对比项	列表推导式 `[...]`	生成器表达式 `(...)`
内存占用	一次性分配所有元素	极低，边用边生成
能否重复迭代	可以	不能，迭代完就没了
适用场景	数据量小、需要多次使用	数据量大、只需遍历一次

这里我踩过坑：有一次我写代码解析一个几万行的配置文件，用了列表推导式，程序内存飙升到几百兆。后来改成生成器表达式，内存降到几十KB。从那以后，只要处理的数据我不确定大小，都先用生成器表达式，发现需要多次遍历再转成列表也不迟。

六、几个容易混淆的点

6.1 生成器函数 vs 普通函数：调用方式一样，行为完全不同

defnormal_func():
return [1, 2, 3]

defgen_func():
yield1
yield2
yield3

# 调用普通函数：直接拿到返回值
result = normal_func()
print(result)  # [1, 2, 3]

# 调用生成器函数：拿到的是生成器对象，函数体还没执行
gen = gen_func()
print(gen)  # <generator object gen_func at 0x...>
print(list(gen))  # [1, 2, 3]  需要迭代才能拿到值

6.2 生成器只能迭代一次

gen = (x for x in range(5))

# 第一次迭代
print(list(gen))  # [0, 1, 2, 3, 4]

# 第二次迭代
print(list(gen))  # []  空的！因为生成器已经“耗尽”了

# 想再用？重新创建一个生成器
gen2 = (x for x in range(5))

几点实在的经验

不要把生成器和列表搞混
生成器没有长度、不支持索引、不能切片、不能重复迭代。如果你需要这些功能，请用列表。生成器的价值是用“一次性遍历”换“极低内存”。
StopIteration异常是正常流程，不是错误
它只是告诉调用方“没数据了”。你自己写迭代器或生成器时，不需要手动捕获它，for循环会帮你处理。只有在手动调用next()时才需要关注。
生成器里的return不等于函数结束
在生成器函数里，return会触发StopIteration异常，同时return的值会作为异常的参数。但实际开发中，生成器里很少用return，更常见的做法是让循环自然结束或者用if判断主动return来终止。
生成器的性能优势主要体现在内存，而不是速度
生成器不会让你的代码跑得更快（甚至可能比列表推导式稍慢一点点）。它的价值是用可接受的执行时间换宝贵的内存空间。内存不够时，生成器是你的救命稻草。
什么时候该用生成器？
什么时候不该用？

数据量小（几十几百个），且需要多次遍历
需要随机访问（取第5个、第100个）
代码可读性优先，且生成器逻辑过于复杂

处理大文件、大数据库查询结果、网络流数据
需要表示无限序列
只想遍历一次，而且数据量较大

调试生成器时有点麻烦
生成器不支持断点调试时直接看内部状态（因为它是懒加载的）。如果生成器逻辑复杂，建议先写成普通函数调试好，再转成生成器版本。或者把生成器里的yield临时改成print，看看到底产生了哪些值。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

别再傻傻一次性加载数据了!Python生成器让你节省99%的内存

一、先聊聊迭代器到底是什么

二、除了for循环，还能怎么用迭代器？

三、自己动手写一个迭代器

四、生成器：Python给你的“偷懒神器”

4.1 生成器的核心：yield

4.2 生成器 vs 普通函数：用个例子说清楚

五、生成器的实战价值

5.1 处理超大文件（最经典的场景）

5.2 表示无限序列

5.3 生成器表达式：更简洁的写法

六、几个容易混淆的点

6.1 生成器函数 vs 普通函数：调用方式一样，行为完全不同

6.2 生成器只能迭代一次

几点实在的经验

最新文章

热门文章

随机文章

别再傻傻一次性加载数据了!Python生成器让你节省99%的内存

一、先聊聊迭代器到底是什么

二、除了for循环，还能怎么用迭代器？

三、自己动手写一个迭代器

四、生成器：Python给你的“偷懒神器”

4.1 生成器的核心：yield

4.2 生成器 vs 普通函数：用个例子说清楚

五、生成器的实战价值

5.1 处理超大文件（最经典的场景）

5.2 表示无限序列

5.3 生成器表达式：更简洁的写法

六、几个容易混淆的点

6.1 生成器函数 vs 普通函数：调用方式一样，行为完全不同

6.2 生成器只能迭代一次

几点实在的经验

不止大模型!Python 绘图工具迭代,重塑科研表达

鲸海数据:花两天写了个Python脚本,现在查一家公司只用5秒钟

最新文章

热门文章

随机文章