前面我们已经学过 for 循环,也写过很多遍历代码。列表能遍历,字符串能遍历,字典能遍历,文件对象也能一行一行遍历。写得多了,很多人会形成一种感觉:
好像只要能放进 for 里,它就能被一个一个取出来。 但为什么能这样?for 到底是怎么知道下一个元素是谁的? 为什么有些对象可以遍历,有些对象不行? 为什么有时候遍历一次之后,再遍历就没内容了?
这些问题,表面上看是在问 for,本质上其实是在问另一个非常核心的概念:
迭代器。
这一章,我们就把这个机制讲清楚。你会发现,迭代器并不神秘,它其实就是 Python 在背后帮你“一个一个取值”的那套规则。而一旦这个规则想明白,后面你再学生成器、yield、文件对象、很多高级语法,都会顺很多。
一、先别急着记定义,先看 for 到底在干什么
比如你已经写过很多次这样的代码:
nums = [10, 20, 30]for n in nums: print(n)
输出结果:
102030
这段代码看起来特别自然。 但你现在要开始换个角度看它。
表面上是:
遍历列表 nums
本质上其实是:
Python 在背后不断地从 nums 里取出下一个元素 每次取一个 交给变量 n直到再也取不出来为止
也就是说,for 循环并不是凭空就会遍历。 它一定依赖某种“一个一个往外拿值”的机制。
这个机制,就是迭代。
而真正负责“一次拿一个值”的对象,就是迭代器。
二、什么叫迭代
先给一个特别朴素的理解:
迭代,就是按顺序一个一个取值。
注意这里有三个关键词:
按顺序 一个一个 取值
比如你遍历列表:
先拿第一个 再拿第二个 再拿第三个
比如你遍历字符串:
先拿第一个字符 再拿第二个字符 再拿第三个字符
比如你遍历文件对象:
先拿第一行 再拿第二行 再拿第三行
这些,本质上都是迭代。
所以“迭代”这个词你不要想得太抽象。 它不是什么神秘的新能力,它说白了就是:
别一次把所有东西都端出来,而是一个接一个地取。
三、那迭代器到底是什么
现在可以给定义了。
迭代器,就是一个能记住当前取到哪里,并且能够继续往下取下一个值的对象。
这句话你先别急着背,我们把它翻译一下。
你可以把迭代器理解成一个很老实的发牌员。
它手里拿着一叠牌。 你每次说来一张,它就发给你一张。 发完一张之后,它会记住自己已经发到哪了。 下次你再说来一张,它不会从头再来,而是继续往后发。 直到发完为止。
这就是迭代器最核心的味道:
一次给你一个值,并且记住进度。
这个“记住进度”特别重要。 因为它正是很多遍历行为的底层关键。
四、为什么说迭代器和 for 循环关系特别深
因为 for 循环本质上就是在不断向迭代器要下一个值。
你平时写:
for n in nums: print(n)
看起来好像很自然。 但在 Python 背后,它做的事情更像是:
先拿到一个迭代器 然后不断向这个迭代器要下一个元素 每要到一个,就执行一次循环体 直到拿不到为止
所以更准确地说,for 循环并不是直接遍历列表、字符串、文件。 它真正依赖的是:
这些对象能不能提供迭代器。
这就是为什么这一章标题会说:
for 循环背后的运行机制
因为你平时看到的是 for。 但它背后真正干活的,其实是迭代器。
五、什么叫可迭代对象
在讲迭代器时,你还必须认识另一个特别容易混淆的概念:
可迭代对象。
先给特别直白的定义:
凡是可以被 for 循环遍历的对象,通常都可以叫可迭代对象。
比如:
列表 字符串 元组 字典 集合 文件对象range() 生成的对象
这些都属于可迭代对象。
为什么叫可迭代?
因为它们都可以“提供一种方式”,让 Python 一个一个把里面的值拿出来。
注意这里有个非常关键的点:
可迭代对象,不等于迭代器本身。
这俩很多新手会混。 你现在先粗略记成:
可迭代对象,是“可以拿来生成迭代器的东西” 迭代器,是“真正负责一个个吐值的东西”
这个区别后面会越来越重要。
六、先用 iter() 看看迭代器是怎么来的
Python 提供了一个函数,专门用来从可迭代对象里拿到迭代器:
iter()
比如:
nums = [10, 20, 30]it = iter(nums)print(it)
这里:
nums 是列表,是可迭代对象iter(nums) 得到的是一个迭代器对象 我们把它放进变量 it
所以你现在可以先建立一个特别重要的关系:
可迭代对象 --通过 iter()--> 迭代器
这一步很关键。 因为它第一次把“可迭代对象”和“迭代器”分开了。
列表本身不是直接在那儿一个一个吐值。 而是你可以通过 iter(nums),拿到一个真正负责按顺序取值的迭代器。
七、那迭代器到底怎么一个一个取值
这时候就轮到另一个关键函数出场了:
next()
如果你已经有了迭代器,就可以这样取值:
nums = [10, 20, 30]it = iter(nums)print(next(it))print(next(it))print(next(it))
输出结果:
102030
你看,这就非常直观了。
第一次 next(it),拿到 10 第二次 next(it),拿到 20 第三次 next(it),拿到 30
这就是真正的“一个一个取”。
所以你现在可以把迭代器的动作理解成:
iter() 负责拿到迭代器next() 负责向迭代器要下一个值
只要这两步一理解,整个机制就会非常清楚。
八、如果继续 next() 会发生什么
这个问题非常关键。
看下面这段代码:
nums = [10, 20, 30]it = iter(nums)print(next(it))print(next(it))print(next(it))print(next(it))
前三次没问题。 第四次就会报错。
为什么?
因为迭代器里的内容已经取完了。 它已经没有下一个值可以给你了。
这时候 Python 抛出的异常通常叫:
StopIteration
这个名字你先不用怕,它特别有意义。
它其实就是在告诉你:
停一下,已经没有更多元素可迭代了。
也就是说,迭代器的工作方式非常像一个有限发牌员。 牌发完了,就不能再发了。 这时候只能告诉你:结束了。
九、现在你应该真正理解 for 循环在背后做什么了
你平时写:
nums = [10, 20, 30]for n in nums: print(n)
背后逻辑其实很像这样:
先把 nums 变成一个迭代器 不断调用 next()每次拿到一个值就执行循环体 如果遇到 StopIteration,说明结束了,循环停止
也就是说,for 循环其实是在替你做两件事:
自动创建迭代器 自动处理 StopIteration
这也就是为什么平时你用 for 会觉得特别省心。 因为那些底层繁琐动作,Python 都已经帮你包好了。
十、手动模拟一次 for 循环,你会特别有感觉
下面这个例子非常值得你认真看。
先是普通写法:
nums = [10, 20, 30]for n in nums: print(n)
如果你手动模拟,大概会像这样:
nums = [10, 20, 30]it = iter(nums)whileTrue:try: n = next(it) print(n)except StopIteration:break
输出结果完全一样:
102030
这段代码特别值钱,因为它把 for 循环背后的事情几乎掰开给你看了。
先生成迭代器 再不断取下一个值 取不到就结束
所以从这一刻开始,你最好把一个认知真正立起来:
for 的本质,不是语法糖那么简单,它是围绕迭代器协议运转的一层高级封装。
十一、为什么有些对象能放进 for,有些不行
这就是现在特别自然能回答的问题了。
比如列表能遍历,字符串能遍历,字典能遍历。 因为它们是可迭代对象,它们能提供迭代器。
但有些对象如果不能按顺序一个一个往外拿值,那就没法直接放进 for。
比如你写:
for x in123: print(x)
这通常就不行。
因为整数不是一个“能一个一个取元素”的对象。 它既不是一组元素,也没有天然迭代顺序。
所以本质区别不在于 for 喜不喜欢它, 而在于它能不能提供可迭代能力。
十二、为什么字符串也能迭代
很多新手一开始其实没认真想过这个问题。
比如:
for ch in'python': print(ch)
为什么能这样写?
因为字符串本质上也可以被看成一串有顺序的字符。 所以它是可迭代对象。
你也完全可以手动验证一下:
text = 'abc'it = iter(text)print(next(it))print(next(it))print(next(it))
输出:
abc
这再次说明:
只要对象能按顺序一个个提供元素,迭代器机制就能工作。
十三、为什么字典默认遍历出来的是键
比如:
info = {'name': '张三', 'age': 18}for x in info: print(x)
输出结果通常是:
nameage
为什么不是值?
因为字典的默认迭代规则,就是一个一个给出键。 也就是说,字典也能提供迭代器,但它定义的“下一个值”默认是键。
如果你想遍历值,就得显式写:
for v in info.values(): print(v)
如果你想同时遍历键和值,就写:
for k, v in info.items(): print(k, v)
这件事特别说明一个问题:
可迭代对象能不能遍历,不只是看类型,还要看它定义了什么样的迭代规则。
十四、为什么文件对象也能一行一行遍历
这个点也特别有代表性。
比如你前面写过:
with open('data.txt', 'r', encoding='utf-8') as f:for line in f: print(line)
为什么文件对象 f 能直接放进 for?
因为文件对象本身就是可迭代的。 它的迭代规则通常是:
每次给你一行
这非常妙。 因为文件可能很大,如果一次性全读进来不一定划算。 而迭代器机制让它可以一行一行地给你。
这也是为什么说,理解迭代器之后,你会突然明白很多之前只是“会写但没想通”的代码。
十五、为什么说迭代器会记住当前位置
这点特别重要。
看这个例子:
nums = [10, 20, 30]it = iter(nums)print(next(it))print(next(it))
这里输出:
1020
注意,第二次不是又从 10 开始。 为什么?
因为迭代器会记住自己已经走到哪里了。
这正是它和普通“从头访问列表”的思路非常不一样的地方。
你可以把迭代器想成一个书签。 每翻一页,书签就往后移动。 下一次不是回到第一页,而是从上次停的地方继续。
这个“状态推进”的特征,后面讲生成器时会变得非常关键。
十六、为什么很多迭代器只能用一遍
因为它们是顺着往前走的,不会自动重置。
比如:
nums = [1, 2, 3]it = iter(nums)for x in it: print(x)for x in it: print(x)
第二个循环通常不会再有输出。 因为第一次已经把迭代器消耗完了。
这点和列表很不一样。
列表是原始数据容器,你每次 for 它都能重新开始。 而迭代器是“当前取值过程本身”,走完就走完了。
所以你一定要分清:
列表可以反复重新生成迭代器 同一个已经走完的迭代器,通常不能自动回头
这个区别后面会特别重要。
十七、那为什么列表好像能遍历很多次
因为你每次写:
for x in nums: ...
Python 都会重新帮你做一次:
iter(nums)
也就是说,它每次都会从列表重新拿到一个新的迭代器。
所以不是列表自己有“无限重播”能力, 而是因为它能不断提供新的迭代器。
这也是为什么:
同一个列表能遍历很多次 但同一个迭代器用完之后通常就不行了
这点必须想透。
十八、现在可以正式区分两个概念了
这一章最容易混的,就是下面这两个:
可迭代对象 迭代器
你现在可以这样记:
可迭代对象能被 iter() 转成迭代器的对象 比如列表、字符串、字典、集合、文件对象、range() 等
迭代器真正可以被 next() 一个个取值,并且会记住当前位置的对象
这个区别你一旦立住,后面很多高级内容都会轻松很多。
十九、为什么这一章特别重要
因为它是在帮你理解 Python 里一个非常底层、但又特别高频的机制。
你以后会接触到:
生成器yield文件对象 很多标准库返回的对象 函数式编程里的某些结果对象 甚至很多第三方库里的数据流接口
这些东西表面上看五花八门, 但它们往往都和迭代器机制有关。
所以这一章不是孤零零的知识点。 它其实是在为后面好几章打地基。
二十、一个特别实用的小练习:自己手动走一遍迭代器
你可以自己试试下面这段代码:
nums = [100, 200, 300]it = iter(nums)print(next(it))print(next(it))print(next(it))
然后再加一行:
print(next(it))
你会亲眼看到 StopIteration。
这个练习非常基础,但特别值钱。 因为它会让你第一次真正感受到:
迭代器不是抽象概念,而是一个“会被消耗、会记住位置、会到头结束”的对象。
二十一、本章小练习
你可以做三个很适合巩固的练习。
练习 1 给一个字符串手动创建迭代器,然后用 next() 依次取出每个字符。
text = 'abc'
练习 2 给一个列表手动创建迭代器,然后只取前两个值,观察它会不会记住位置。
nums = [10, 20, 30, 40]
练习 3 用 while True + try...except 的方式,手动模拟 for 循环遍历一个列表。
这些练习虽然不长,但只要你亲手写一遍,这一章就会通得非常快。
二十二、本章总结
这一章最重要的,不是记住几个函数名,而是把 for 循环背后的那套机制真正看明白。
迭代,本质上就是按顺序一个一个取值。 迭代器,是负责一个一个提供值,并且记住当前位置的对象。 可迭代对象,是那些可以生成迭代器的对象,比如列表、字符串、字典、集合、文件对象等。iter() 用来从可迭代对象中拿到迭代器。next() 用来向迭代器要下一个值。 当迭代器没有更多值可提供时,会抛出 StopIteration。for 循环本质上就是在自动帮你创建迭代器,并不断调用 next(),直到结束。
下一章我们继续往前走,进入和迭代器关系最紧密、也最值得你真正掌握的内容:096|生成器是什么:为什么它能更省内存。