当前位置：首页>python>【一起学Python】第90天:NumPy性能优化,告别慢代码

【一起学Python】第90天:NumPy性能优化,告别慢代码

2026-06-30 16:38:39

写在前面

欢迎来到【一起学Python】的第90天。恭喜坚持到了第90天。

前面的89天里，我们从安装环境开始，一路掌握了NumPy的数据类型、切片索引、数学运算、线性代数等核心技能。但你可能遇到过这样的场景：

处理100万条数据时，代码跑得很慢
内存占用飙升，甚至直接导致程序崩溃
写了一堆 for 循环，感觉不够"Pythonic"

今天的内容：NumPy性能优化。

掌握这些技巧，你的代码不仅能跑通，还能跑得更快。

今日学习目标

理解矢量化操作，告别低效的Python循环
利用广播机制减少内存占用
学会合理选择数据类型，节省内存空间
掌握内置函数与视图机制，榨干性能潜力

一、性能优化核心技巧

1.1 矢量化操作（Vectorization）：NumPy的灵魂

核心原则：能用数组运算，就别写 for 循环。

NumPy 的底层是用 C 语言编写的，它能一次性对整个数组进行操作，比在 Python 层面逐个处理元素快得多。

import numpy as npimport timesize = 1000000a = np.random.rand(size)b = np.random.rand(size)# 不推荐：使用 Python 循环（慢）start = time.time()result_loop = [a[i] + b[i] for i in range(size)]print(f"循环耗时: {time.time() - start:.4f} 秒")# 输出示例: 0.15 秒# 推荐：使用矢量化操作（快）start = time.time()result_vector = a + bprint(f"矢量化耗时: {time.time() - start:.4f} 秒")# 输出示例: 0.003 秒（快了50倍）

矢量化不仅代码更简洁，而且速度更快。

1.2 巧妙利用广播机制（Broadcasting）

广播机制允许不同形状的数组进行运算，无需手动扩展数组，从而节省大量内存和时间。

# 不推荐：手动复制数组进行运算a = np.array([1, 2, 3])b = 5# b_expanded = np.array([5, 5, 5])  # 浪费内存# result = a + b_expanded# 推荐：利用广播result = a + b  # 广播自动处理，无需额外内存print("广播结果:", result)  # 输出: [6 7 8]

内存优势：广播是"逻辑上的扩展"，并不会在内存中真的创建大数组副本。

1.3 合理选择数据类型（Dtype）

默认的 int64 和 float64 精度高，但内存占用大。在深度学习或大数据场景下，降低精度往往能换来数倍的性能提升。

# 默认类型：float64（每个元素8字节）arr64 = np.array([1.0, 2.0, 3.0])print(f"float64内存: {arr64.nbytes} 字节")  # 24字节# 优化类型：float32（每个元素4字节）arr32 = np.array([1.0, 2.0, 3.0], dtype=np.float32)print(f"float32内存: {arr32.nbytes} 字节")  # 12字节（省一半）

常见场景：

图像数据：用 uint8（0-255）
模型权重：用 float16或 float32
布尔掩码：用 bool_

1.4 善用内置函数与原地操作（In-place）

NumPy 提供了大量经过高度优化的内置函数，优先使用它们。使用 out 参数可以避免创建临时数组。

arr = np.random.rand(1000000)# 推荐：使用内置函数组合，或利用 out 参数减少内存分配result = np.empty_like(arr)np.add(np.sqrt(arr), np.log(arr), out=result)

小贴士：

np.sum()
比 Python 自带的 sum() 快得多。
arr = 2
（原地修改）比 arr = arr 2（创建新数组）更省内存。

二、实战演练：性能对比大挑战

通过一个实际案例，看看优化前后的差异。

任务：计算两个大数组的点积（内积）。

import numpy as npimport timesize = 1000000vec1 = np.random.rand(size)vec2 = np.random.rand(size)# 方法1：Python 循环start = time.time()dot_product_loop = sum(vec1[i] * vec2[i] for i in range(size))print(f"1. Python循环点积: {time.time() - start:.4f} 秒")# 方法2：NumPy 矢量乘法 + sumstart = time.time()dot_product_vec = np.sum(vec1 * vec2)print(f"2. NumPy矢量化点积: {time.time() - start:.4f} 秒")# 方法3：NumPy 专用函数 np.dot（最快）start = time.time()dot_product_dot = np.dot(vec1, vec2)print(f"3. np.dot点积: {time.time() - start:.4f} 秒")# 验证结果一致性print("结果是否一致:", np.allclose([dot_product_loop, dot_product_vec], dot_product_dot))

典型输出：

1. Python循环点积: 0.2500 秒2. NumPy矢量化点积: 0.0080 秒3. np.dot点积: 0.0020 秒

今日作业

基础题

创建一个包含 100 万个元素的数组，分别用 for 循环和 np.sqrt() 计算平方根，对比耗时。
将数组 [1.1, 2.2, 3.3] 的类型从 float64 转换为 float32，并检查内存占用变化。
使用广播机制，将一个标量 10 加到形状为 (3, 3) 的零矩阵上。

进阶题

内存优化：生成一个 1000x1000 的随机矩阵，尝试用 float16 存储，观察内存是否减半。
原地操作：计算 arr = arr 2 + 1，改写为原地操作版本（提示：arr = 2; arr += 1），使用 id() 检查内存地址是否改变。
函数选择：对比 np.sum(arr) 和 Python 内置 sum(arr) 在处理大数组时的速度差异。

挑战题

自定义 Ufunc：了解 np.vectorize 的用法（注意：它主要是为了方便，不一定提速），并对比它与纯 Python 循环的性能。
矩阵乘法优化：生成两个 500x500 的矩阵，对比 A @ B、np.dot(A, B) 和 np.matmul(A, B) 的性能。
综合流水线：编写一个函数，输入任意数组，自动将其转换为最节省内存的数据类型（如数值在 0-255 之间转为 uint8）。

参考代码（进阶题2）：

import numpy as nparr = np.array([1, 2, 3])print("原ID:", id(arr))# 非原地：创建新数组，ID改变arr = arr * 2print("新ID:", id(arr))# 原地：修改原数组，ID不变arr *= 2print("原地ID:", id(arr))

性能优化小贴士

profiling 工具：

- 使用 time 模块简单计时。

- 进阶使用 %timeit（Jupyter魔法命令）进行精确微秒级测试。

内存泄漏：

- 及时删除不再使用的大数组：del large_arr

- 强制释放内存：import gc; gc.collect()

避免隐式复制：

- 切片 arr[::2] 返回视图，不耗内存。

- 高级索引 arr[[1,3]] 返回副本，耗内存，需注意。

写在最后

第90天是一个转折点。

你不再只是"会用"NumPy，而是开始懂得如何"用好"它。在数据科学和 AI 领域，性能就是金钱，效率就是生命。

今天重点掌握：

矢量化 - 是 NumPy 的核心哲学，永远优先使用。
数据类型 - 选择直接影响内存和缓存命中率。
广播 - 和内置函数是写出高效代码的捷径。

完成作业的同学，欢迎在评论区打卡，分享你的性能对比数据。

【一起学Python】

每天进步一点点，365天后遇见更优秀的自己！

关注公众号，不错过每天的学习内容！

今日金句：

"优秀的代码不仅要能运行，还要跑得快。掌握性能优化，让你的算法在大数据面前游刃有余。"

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

【一起学Python】第90天:NumPy性能优化,告别慢代码

写在前面

今日学习目标

一、性能优化核心技巧

1.1 矢量化操作（Vectorization）：NumPy的灵魂

1.2 巧妙利用广播机制（Broadcasting）

1.3 合理选择数据类型（Dtype）

1.4 善用内置函数与原地操作（In-place）

二、实战演练：性能对比大挑战

今日作业

基础题

进阶题

挑战题

性能优化小贴士

写在最后

最新文章

热门文章

随机文章

【一起学Python】第90天:NumPy性能优化,告别慢代码

写在前面

今日学习目标

一、性能优化核心技巧

1.1 矢量化操作（Vectorization）：NumPy的灵魂

1.2 巧妙利用广播机制（Broadcasting）

1.3 合理选择数据类型（Dtype）

1.4 善用内置函数与原地操作（In-place）

二、实战演练：性能对比大挑战

今日作业

基础题

进阶题

挑战题

性能优化小贴士

写在最后

超适合小自练习的Python刷题神级网站

【智能财务】python想学好你一定要掌握的基础知识

最新文章

热门文章

随机文章