当前位置：首页>python>等了20多年!Python终于解决GIL性能,暴由线程手把手教程来了

等了20多年!Python终于解决GIL性能,暴由线程手把手教程来了

2026-07-03 22:45:27

GIL 正式宣判"缓刑"：Python 自由线程来了

2023年9月，Python 官方邮件组里，一封邮件炸了锅。
邮件内容：PEP 703——提议让 Python 的 GIL（全局解释器锁）变成可选项。
发件人：Sam Gross，一个来自 Meta 的工程师。
这封邮件的评论区，在 48 小时内涌入了上千条讨论。有人欢呼"Python 性能革命来了"，有人担忧"NumPy 和 C 扩展生态会崩溃"，还有人说"这是 Guido 退休后 Python 最重要的决定"。
一年半后，Python 3.14 正式将自由线程（Free-Threaded）Python纳入官方支持。
这不是演习。这是 Python 诞生 30 多年来最大的一次底层变革。

GIL 是什么？为什么全世界的 Python 程序员都在"恨"它？

一个故事帮你理解 GIL

想象一下，你开了一家餐厅。厨房里只有一把大勺——不管有多少厨师，大家都得排队用这把勺子来炒菜。

一个厨师在翻炒的时候，另一个厨师只能干等着。就算厨房里有 8 个灶台、16 把锅，对不起，一次只能用一把勺子。

这把"大勺"，就是 Python 的 GIL（Global Interpreter Lock，全局解释器锁）。

GIL 的工作原理

GIL 是 CPython 解释器内部的一把"锁"。它的规则很简单：

同一时刻，只有一个线程在执行 Python 字节码。

import threadingimport timedef cpu_task(n, name): """模拟 CPU 密集型计算""" start = time.perf_counter() result = sum(i * i for i in range(n)) elapsed = time.perf_counter() - start print(f"{name} 完成，耗时 {elapsed:.2f}s，结果: {result}")单线程基准print("=== 单线程 ===")start = time.perf_counter()cpu_task(10_000_000, "线程A")single_time = time.perf_counter() - startprint(f"总耗时: {single_time:.2f}s\n")# 多线程测试print("=== 4线程 ===")threads = []start = time.perf_counter()for i in range(4): t = threading.Thread(target=cpu_task, args=(10_000_000, f"线程{i}")) threads.append(t) t.start()for t in threads: t.join()multi_time = time.perf_counter() - startprint(f"总耗时: {multi_time:.2f}s\n")print(f"加速比: {single_time/multi_time:.2f}x")# 输出：加速比 ≈ 1.0x（几乎没有加速！）

在这个例子中，4 个线程并没有带来 4 倍的性能提升——因为 GIL 只允许一个线程执行 Python 代码。多线程的 Python 程序，在 CPU 密集型任务上，和单线程几乎一样慢。

这就是 Python 的"性能原罪"。全世界有数百万 Python 程序员，每天都在忍受这个限制。

GIL 的历史：当年为什么要加它？

等等，Guido 大叔当年为什么要加 GIL？难道不知道它会限制性能吗？

知道。但 GIL 有它的合理性。

GIL 大大简化了 CPython 的实现。Python 的对象系统是引用计数的，而引用计数在多线程环境下有严重的竞态条件（race condition）。没有 GIL，两个线程同时修改同一个对象的引用计数，可能导致内存泄漏或重复释放。

GIL 把这个复杂的并发问题，用最简单的方式解决了：一次只允许一个线程执行。不需要复杂的锁机制，不需要担心引用计数的竞态问题。Python 的 C 扩展也可以非常简单地与解释器交互。

代价就是：多线程无法真正并行执行 Python 代码。

PEP 703：让 GIL 变成可选项

2023年，Sam Gross 在 Meta 内部开发了一个"去 GIL"的 Python 分支（nogil），并在 PEP 703 中正式提交给 Python 官方。

核心思路：per-object GIL

GIL 的问题是"全局一把锁"。PEP 703 的解决思路是：把锁从"全局"变成"对象级别"。

在自由线程的 Python 中：

每个对象都有自己的锁（微锁，fine-grained lock）

引用计数的修改通过原子操作或锁保护

不同线程可以同时执行不同的 Python 代码，只要它们操作的是不同的对象

Python 3.14 自由线程模式下的多线程import threadingimport timedef parallel_compute(start, end, results, index): """每个线程处理自己独立的数据，互不干扰""" total = 0 for i in range(start, end): total += i * i results[index] = total# 4 个独立的数据块N = 10_000_000chunk_size = N // 4results = [0] * 4threads = []start = time.perf_counter()for i in range(4): t = threading.Thread( target=parallel_compute, args=(i * chunk_size, (i + 1) * chunk_size, results, i) ) threads.append(t) t.start()for t in threads: t.join()total_time = time.perf_counter() - startprint(f"总耗时: {total_time:.2f}s")print(f"结果: {sum(results)}")# 在自由线程模式下，这个多线程程序应该接近 4x 加速！

移除 GIL 的代价

天下没有免费的午餐。移除 GIL 也有一些代价：

1. 单线程性能略有下降（2-5%）

自由线程的 Python 需要用锁来保护引用计数。这带来了一些额外的开销。对于纯单线程程序，Python 3.14 自由线程版本比传统版本慢 2-5%。

2. C 扩展需要重新适配

很多 C 扩展（如 NumPy、Cython）假设 GIL 存在，用 GIL 来保护共享状态。自由线程模式下，这些扩展需要用显式的锁来替代 GIL。

3. 一些并发假设需要改变

有些代码假设 GIL 存在（例如，认为"在两条字节码之间不可能有其他线程修改数据"）。自由线程模式下，这个假设不再成立。

Python 3.14：自由线程正式落地

安装自由线程 Python

Python 3.14 的自由线程版本需要单独安装：

方法一：使用 pyenv（推荐）pyenv install 3.14.0t # t 代表 free-threadedpyenv local 3.14.0t# 方法二：使用官方 CPython 源码编译git clone https://github.com/python/cpython.gitcd cpythongit checkout v3.14.0t./configure --disable-gil --prefix=$HOME/python-ftmake -j$(nproc)make install# 验证python --version# Python 3.14.0 (tags/v3.14.0t:...) ← 注意末尾的 t

检测是否为自由线程 Python

import sysif sys.build_config.free_threaded: print("✅ 这是自由线程 Python") print(f" GIL 可用: {sys._is_gil_enabled()}") 可以动态启用/禁用 GILelse: print("❌ 这是标准 Python，GIL 强制启用")

动态控制 GIL（Python 3.14 新 API）

import sysprint(f"GIL 当前状态: {'启用'if sys._is_gil_enabled() else'禁用'}")临时禁用 GIL（仅在自由线程 Python 中有效）if hasattr(sys, '_set_gil_enabled'): # 在某个代码段禁用 GIL with sys._disabled_gil(): # 这里没有 GIL，真正的多线程并行 result = sum(i * i for i in range(10_000_000)) print(f"禁用GIL计算结果: {result}") # 退出上下文后 GIL 自动恢复 print(f"GIL 恢复: {'启用'if sys._is_gil_enabled() else'禁用'}")

多线程性能实测

import threadingimport timeimport sysdef parallel_sum(n, name): start = time.perf_counter() total = sum(i * i for i in range(n)) elapsed = time.perf_counter() - start return name, elapsed, totalN = 20_000_000num_threads = 4单线程基准print(f"=== 单线程基准 ===")start = time.perf_counter()_, single_time, _ = parallel_sum(N, "基准")print(f"耗时: {single_time:.3f}s")# 多线程print(f"\n=== {num_threads} 线程 ===")threads = []results = []start = time.perf_counter()chunk = N // num_threadsfor i in range(num_threads): t = threading.Thread(target=lambda idx=i: results.append(parallel_sum(chunk, f"线程{idx}"))) threads.append(t) t.start()for t in threads: t.join()multi_time = time.perf_counter() - startprint(f"总耗时: {multi_time:.3f}s")print(f"加速比: {single_time/multi_time:.2f}x")if sys.build_config.free_threaded: if single_time/multi_time > 2.0: print("🎉 真正的多线程加速！自由线程生效！") else: print("⚠️ 加速比不高，可能受其他因素影响")else: if single_time/multi_time < 1.2: print("🔒 标准 Python，GIL 限制了多线程性能")

预期输出（自由线程 Python）：

预期输出（标准 Python）：

谁受益最大？

受益明显

1. CPU 密集型的多线程程序

图像处理：并行处理多张图片from PIL import Imageimport threadingimport osdef process_image(image_path, output_path): """CPU 密集型：图像滤镜处理""" img = Image.open(image_path) # 复杂的滤镜计算 filtered = img.filter(Image.Filter.SMOOTH) filtered.save(output_path)# 以前：GIL 导致多线程无效# 现在：4 线程可以真正并行处理 4 张图片threads = []for i, img_file in enumerate(image_files): t = threading.Thread(target=process_image, args=(img_file, f"out_{i}.jpg")) threads.append(t) t.start()

2. 科学计算 + 多数据集

同时对多个数据集做 NumPy 计算import numpy as npimport threadingdef compute_stats(dataset): """对数据集做统计分析""" data = np.load(dataset) return { 'mean': np.mean(data), 'std': np.std(data), 'max': np.max(data), }# 以前：4 个数据集串行处理# 现在：4 个线程真正并行results = []threads = [threading.Thread(target=lambda d=d: results.append(compute_stats(d))) for d in datasets]for t in threads: t.start()for t in threads: t.join()

3. 并行爬虫/并发 IO（间接受益）虽然 IO 操作本身不受 GIL 影响，但爬虫中通常夹杂着一些数据处理逻辑（JSON 解析、正则匹配等），自由线程可以让这些操作真正并行。

受益有限

1. IO 密集型程序：aiohttp、asyncio 已经可以很好地处理 IO 并发，GIL 本来就不是瓶颈。

2. NumPy 大矩阵运算：NumPy 的核心计算已经在 C 代码中释放了 GIL，不依赖 Python 多线程。

3. 单线程程序：没有多线程需求，GIL 存在与否没有区别。

与多解释器的关系：两条互补的路线

PEP 734（多解释器）vs PEP 703（自由线程）

这是两个互补的方案，解决不同的问题：

维度	PEP 703 自由线程	PEP 734 多解释器
隔离性	共享内存，需自行加锁	完全隔离（进程级）
效率	线程级（轻量）	解释器级（较轻量）
适用场景	CPU 密集多线程	任务隔离、插件沙箱
C 扩展兼容	需要适配	完全兼容
上线状态	Python 3.14 官方支持	Python 3.14 标准库

两条路可以结合使用吗？可以。在一个自由线程的 Python 进程中，运行多个解释器，每个解释器内部都是多线程的。这是 Python 并发的"双剑合璧"。

C 扩展生态：NumPy 们还好吗？

这是自由线程最大的担忧。Python 的科学计算生态（NumPy、Pandas、SciPy）大量依赖 C 扩展。这些扩展的作者假设 GIL 存在，用 GIL 来保护共享状态。

当前状态

NumPy：已经开始适配自由线程。主要数值运算函数（如 np.dot、np.add）已经可以在自由线程模式下安全使用。但某些操作仍需要显式加锁。

NumPy 在自由线程 Python 中的行为import numpy as npimport sysprint(f"NumPy 版本: {np.version}")print(f"自由线程 Python: {sys.build_config.free_threaded}")# 基础运算：安全a = np.random.rand(1000, 1000)b = np.random.rand(1000, 1000)import threadingresults = []def matmul_task(): results.append(np.dot(a, b))threads = [threading.Thread(target=matmul_task) for _ in range(4)]for t in threads: t.start()for t in threads: t.join()print(f"完成 {len(results)} 次矩阵乘法")# 在自由线程 NumPy 中，这 4 次运算是真正并行的！

Cython：Cython 3.1+ 支持自由线程。需要使用 --freethreaded 编译选项。

其他 C 扩展：逐步适配中。Python 3.14 的自由线程版本目前兼容性在70-80%左右，一些主流库（NumPy、SciPy、Pandas）已经基本适配。

如何检查 C 扩展的兼容性

import sysimport importlib.utildef check_extension_compatibility(package_name): """检查某个包的自由线程兼容性""" try: mod = importlib.import_module(package_name)检查是否有 _allow_free_threading 标记 if hasattr(mod, '_is_free_threaded_safe'): safe = mod._is_free_threaded_safe() status = "✅ 兼容" if safe else "⚠️ 部分兼容" print(f"{package_name}: {status}") else: print(f"{package_name}: ❓ 未知（建议查阅官方文档）") except ImportError: print(f"{package_name}: 未安装")check_extension_compatibility('numpy')check_extension_compatibility('pandas')check_extension_compatibility('cython')

迁移决策框架：你要不要切换？

切换的好处

多线程 CPU 程序性能提升 2-4 倍

不需要学习 multiprocessing 的复杂 API

共享内存比进程间通信更简单

切换的风险

单线程程序轻微性能下降（2-5%）

C 扩展兼容性需要确认

已有代码的线程安全假设可能需要审查

决策树

渐进式迁移策略

如果你不确定，可以采用渐进式迁移import sys# 检测是否在自由线程模式下is_free_threaded = sys.build_config.free_threaded if hasattr(sys, 'build_config') else False# 动态选择策略if is_free_threaded: # 使用多线程 from concurrent.futures import ThreadPoolExecutorelse: # 回退到 multiprocessing from concurrent.futures import ProcessPoolExecutordef parallel_task(data): # 业务逻辑 ...with ThreadPoolExecutor(max_workers=4) as executor: results = list(executor.map(parallel_task, datasets))

总结：Python 并发的"终极形态"

回顾 Python 并发的演进史：

Python 3.14 的自由线程支持，不是为了取代 multiprocessing，也不是为了取代 asyncio。它是为了填补"轻量多线程"这个空白。

有些场景下，你需要真正的并行计算，但 multiprocessing 太重，asyncio 帮不上忙，threading 又受 GIL 限制。自由线程 Python 就是为这个场景而生的。

这是一次"底层革命"。它不会让每个人的 Python 程序都快 10 倍。但对于那些真正需要多线程 CPU 并行的人来说，这是一个等待了 20 多年的礼物。

欢迎评论区交流学习

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

等了20多年!Python终于解决GIL性能,暴由线程手把手教程来了

GIL 正式宣判"缓刑"：Python 自由线程来了

GIL 是什么？为什么全世界的 Python 程序员都在"恨"它？

一个故事帮你理解 GIL

GIL 的工作原理

GIL 的历史：当年为什么要加它？

PEP 703：让 GIL 变成可选项

移除 GIL 的代价

Python 3.14：自由线程正式落地

安装自由线程 Python

检测是否为自由线程 Python

动态控制 GIL（Python 3.14 新 API）

多线程性能实测

谁受益最大？

受益明显

受益有限

与多解释器的关系：两条互补的路线

C 扩展生态：NumPy 们还好吗？

当前状态

如何检查 C 扩展的兼容性

迁移决策框架：你要不要切换？

切换的好处

切换的风险

决策树

渐进式迁移策略

总结：Python 并发的"终极形态"

最新文章

热门文章

随机文章

等了20多年!Python终于解决GIL性能,暴由线程手把手教程来了

GIL 正式宣判"缓刑"：Python 自由线程来了

GIL 是什么？为什么全世界的 Python 程序员都在"恨"它？

一个故事帮你理解 GIL

GIL 的工作原理

GIL 的历史：当年为什么要加它？

PEP 703：让 GIL 变成可选项

移除 GIL 的代价

Python 3.14：自由线程正式落地

安装自由线程 Python

检测是否为自由线程 Python

动态控制 GIL（Python 3.14 新 API）

多线程性能实测

谁受益最大？

受益明显

受益有限

与多解释器的关系：两条互补的路线

C 扩展生态：NumPy 们还好吗？

当前状态

如何检查 C 扩展的兼容性

迁移决策框架：你要不要切换？

切换的好处

切换的风险

决策树

渐进式迁移策略

总结：Python 并发的"终极形态"

耗时2天 搭建了一个Python学习库~

python免杀工具学习记录

最新文章

热门文章

随机文章

耗时2天搭建了一个Python学习库~