写在前面
欢迎来到【一起学Python】的第90天。恭喜坚持到了第90天。
前面的89天里,我们从安装环境开始,一路掌握了NumPy的数据类型、切片索引、数学运算、线性代数等核心技能。但你可能遇到过这样的场景:
- 写了一堆
for 循环,感觉不够"Pythonic"
今天的内容:NumPy性能优化。
掌握这些技巧,你的代码不仅能跑通,还能跑得更快。
今日学习目标
一、性能优化核心技巧
1.1 矢量化操作(Vectorization):NumPy的灵魂
核心原则:能用数组运算,就别写 for 循环。
NumPy 的底层是用 C 语言编写的,它能一次性对整个数组进行操作,比在 Python 层面逐个处理元素快得多。
import numpy as npimport timesize = 1000000a = np.random.rand(size)b = np.random.rand(size)# 不推荐:使用 Python 循环(慢)start = time.time()result_loop = [a[i] + b[i] for i in range(size)]print(f"循环耗时: {time.time() - start:.4f} 秒")# 输出示例: 0.15 秒# 推荐:使用矢量化操作(快)start = time.time()result_vector = a + bprint(f"矢量化耗时: {time.time() - start:.4f} 秒")# 输出示例: 0.003 秒(快了50倍)
矢量化不仅代码更简洁,而且速度更快。
1.2 巧妙利用广播机制(Broadcasting)
广播机制允许不同形状的数组进行运算,无需手动扩展数组,从而节省大量内存和时间。
# 不推荐:手动复制数组进行运算a = np.array([1, 2, 3])b = 5# b_expanded = np.array([5, 5, 5]) # 浪费内存# result = a + b_expanded# 推荐:利用广播result = a + b # 广播自动处理,无需额外内存print("广播结果:", result) # 输出: [6 7 8]
内存优势:广播是"逻辑上的扩展",并不会在内存中真的创建大数组副本。
1.3 合理选择数据类型(Dtype)
默认的 int64 和 float64 精度高,但内存占用大。在深度学习或大数据场景下,降低精度往往能换来数倍的性能提升。
# 默认类型:float64(每个元素8字节)arr64 = np.array([1.0, 2.0, 3.0])print(f"float64内存: {arr64.nbytes} 字节") # 24字节# 优化类型:float32(每个元素4字节)arr32 = np.array([1.0, 2.0, 3.0], dtype=np.float32)print(f"float32内存: {arr32.nbytes} 字节") # 12字节(省一半)
常见场景:
- 图像数据:用 uint8(0-255)
- 模型权重:用 float16或 float32
- 布尔掩码:用 bool_
1.4 善用内置函数与原地操作(In-place)
NumPy 提供了大量经过高度优化的内置函数,优先使用它们。使用 out 参数可以避免创建临时数组。
arr = np.random.rand(1000000)# 推荐:使用内置函数组合,或利用 out 参数减少内存分配result = np.empty_like(arr)np.add(np.sqrt(arr), np.log(arr), out=result)
小贴士:
np.sum()arr = 2(原地修改)比 arr = arr 2(创建新数组)更省内存。
二、实战演练:性能对比大挑战
通过一个实际案例,看看优化前后的差异。
任务:计算两个大数组的点积(内积)。
import numpy as npimport timesize = 1000000vec1 = np.random.rand(size)vec2 = np.random.rand(size)# 方法1:Python 循环start = time.time()dot_product_loop = sum(vec1[i] * vec2[i] for i in range(size))print(f"1. Python循环点积: {time.time() - start:.4f} 秒")# 方法2:NumPy 矢量乘法 + sumstart = time.time()dot_product_vec = np.sum(vec1 * vec2)print(f"2. NumPy矢量化点积: {time.time() - start:.4f} 秒")# 方法3:NumPy 专用函数 np.dot(最快)start = time.time()dot_product_dot = np.dot(vec1, vec2)print(f"3. np.dot点积: {time.time() - start:.4f} 秒")# 验证结果一致性print("结果是否一致:", np.allclose([dot_product_loop, dot_product_vec], dot_product_dot))
典型输出:
1. Python循环点积: 0.2500 秒2. NumPy矢量化点积: 0.0080 秒3. np.dot点积: 0.0020 秒
今日作业
基础题
- 创建一个包含 100 万个元素的数组,分别用
for 循环和 np.sqrt() 计算平方根,对比耗时。 - 将数组
[1.1, 2.2, 3.3] 的类型从 float64 转换为 float32,并检查内存占用变化。 - 使用广播机制,将一个标量
10 加到形状为 (3, 3) 的零矩阵上。
进阶题
- 内存优化:生成一个
1000x1000 的随机矩阵,尝试用 float16 存储,观察内存是否减半。 - 原地操作:计算
arr = arr 2 + 1,改写为原地操作版本(提示:arr = 2; arr += 1),使用 id() 检查内存地址是否改变。 - 函数选择:对比
np.sum(arr) 和 Python 内置 sum(arr) 在处理大数组时的速度差异。
挑战题
- 自定义 Ufunc:了解
np.vectorize 的用法(注意:它主要是为了方便,不一定提速),并对比它与纯 Python 循环的性能。 - 矩阵乘法优化:生成两个
500x500 的矩阵,对比 A @ B、np.dot(A, B) 和 np.matmul(A, B) 的性能。 - 综合流水线:编写一个函数,输入任意数组,自动将其转换为最节省内存的数据类型(如数值在 0-255 之间转为
uint8)。
参考代码(进阶题2):
import numpy as nparr = np.array([1, 2, 3])print("原ID:", id(arr))# 非原地:创建新数组,ID改变arr = arr * 2print("新ID:", id(arr))# 原地:修改原数组,ID不变arr *= 2print("原地ID:", id(arr))
性能优化小贴士
- 使用 time 模块简单计时。
- 进阶使用 %timeit(Jupyter魔法命令)进行精确微秒级测试。
- 及时删除不再使用的大数组:del large_arr
- 强制释放内存:import gc; gc.collect()
- 切片 arr[::2] 返回视图,不耗内存。
- 高级索引 arr[[1,3]] 返回副本,耗内存,需注意。
写在最后
第90天是一个转折点。
你不再只是"会用"NumPy,而是开始懂得如何"用好"它。在数据科学和 AI 领域,性能就是金钱,效率就是生命。
今天重点掌握:
- 矢量化 - 是 NumPy 的核心哲学,永远优先使用。
- 数据类型 - 选择直接影响内存和缓存命中率。
- 广播 - 和内置函数是写出高效代码的捷径。
完成作业的同学,欢迎在评论区打卡,分享你的性能对比数据。
【一起学Python】
每天进步一点点,365天后遇见更优秀的自己!
关注公众号,不错过每天的学习内容!
今日金句:
"优秀的代码不仅要能运行,还要跑得快。掌握性能优化,让你的算法在大数据面前游刃有余。"