
上一篇介绍了逻辑回归二分类问题(识猫),本篇我们探索一个数据看似像一朵红蓝点构成的花的二维平面数据(Planar data)分类问题,也就是只有两个特征,可以直接画在二维坐标系上的数据点,具体如下图:
我们使用上一篇的识猫程序使用的逻辑回归模型进行分类,结果如下:

这样看来,简单的逻辑回归模型无法适应此类二维平面数据,此类数据是非线性可分的,它不能通过一条直线就将数据分开,所以我们引入单隐层神经网络,也就是在逻辑回归模型的基础上增加一个隐藏层和非线性激活函数,使得模型具备‘扭曲’空间的能力,能够拟合出复杂的曲线,或者任意形状的非线性决策边界。总的来说上篇的逻辑回归模型(识猫)和本篇的单隐层神经网络(二维数据分类)有以下几个维度的区别:
tanh 或 ReLU)。这使得模型具备了“扭曲”空间的能力,能够拟合出复杂的曲线、圈甚至任意形状的非线性决策边界。总结一下:上篇是在讲如何用一条直线去切分数据,而本篇是在讲 当直线切不开时,如何给数据加一个维度(隐藏层),把它变成可以用曲面切分的问题。这就是神经网络能够解决复杂问题(如图像识别、自然语言处理)的核心魔法下面我将直接针对浅层神经网络的代码进行复现,过程中出现的问题我将进行详细解析。
(注:本篇基于吴恩达深度学习assignment3)
parameters 参数forward 前向propagation 传播initialize 初始化backward 反向update 更新num_iterations 迭代次数predict 预测
# 导入numpy库并简写为np,用于高效的数值计算import numpy as np# 导入matplotlib的pyplot模块并简写为plt,用于数据可视化与绘图import matplotlib.pyplot as plt# 从testCases模块中导入所有测试用例,用于后续验证代码逻辑from testCases import *# 导入sklearn(scikit-learn)库,提供常用的机器学习算法与工具import sklearn# 导入sklearn中的datasets模块,用于加载内置的示例数据集import sklearn.datasets# 导入sklearn中的linear_model模块,提供线性回归等线性模型算法import sklearn.linear_model# 从planar_utils模块导入自定义工具函数,包括决策边界绘制、Sigmoid函数及数据集加载等from planar_utils import plot_decision_boundary, sigmoid, load_planar_dataset, load_extra_datasets# 设置魔法命令,使matplotlib生成的图表能够直接在Jupyter Notebook中内联显示%matplotlib inline# 设置随机数种子为1,确保每次运行代码时生成的随机结果保持一致,便于复现和调试np.random.seed(1) 


0.01 可以让初始输入落在激活函数中间斜率较大的区域,确保梯度能顺利传回(这里0.01是经验值,对于非常深的网络,这个值需要调整)。最后,关于随机种子,在跑机器学习或深度学习模型时,虽然参数初始化带有随机性,但只要大家用同一个“种子(seed)”,生成的随机数序列就会一模一样,最终的结果也就完全对得上。这在代码复现和排查 bug 时很好用。



np.sum()默认会对整个数组求和,但它不会自动改变数组的维度结构,而是会保留一个外层维度。因此,即使你算出来的是一个单一数值,costs 的形状可能依然是 (1,) 或者 [[17]],而不是一个单纯的数字 17。这边需要两行np.squeeze()移除数组中所有长度为 1 的维度(也就是把多余的“壳”剥掉)确保costs不是一个嵌套的数组而是一个纯粹的标量,同时需要assert确保costs是一个浮点数。




print_cost=True 的“是否打印训练进度”的开关。设为 True:程序会定期在控制台打印当前的误差值(Cost),方便你观察模型有没有在正常学习。设为 False:程序照常训练,但保持安静,不打印任何进度信息。



#一.准备阶段#1.导入库文件# 导入numpy库并简写为np,用于高效的数值计算import numpy as np# 导入matplotlib的pyplot模块并简写为plt,用于数据可视化与绘图import matplotlib.pyplot as plt# 从testCases模块中导入所有测试用例,用于后续验证代码逻辑from testCases import *# 导入sklearn(scikit-learn)库,提供常用的机器学习算法与工具import sklearn# 导入sklearn中的datasets模块,用于加载内置的示例数据集import sklearn.datasets# 导入sklearn中的linear_model模块,提供线性回归等线性模型算法import sklearn.linear_model# 从planar_utils模块导入自定义工具函数,包括决策边界绘制、Sigmoid函数及数据集加载等from planar_utils import plot_decision_boundary, sigmoid, load_planar_dataset, load_extra_datasets# 设置魔法命令,使matplotlib生成的图表能够直接在Jupyter Notebook中内联显示%matplotlib inline# 设置随机数种子为1,确保每次运行代码时生成的随机结果保持一致,便于复现和调试np.random.seed(1)#2.加载一维平面数据X, Y = load_planar_dataset()#3.定义神经网络结构def layer_size(X,Y): n_x = X.shape[0] n_h = 4 n_y = Y.shape[0] return n_x,n_h,n_y#4.随机初始化参数def initialize_parameters(n_x,n_h,n_y): # 设置随机种子,确保每次运行结果一致,方便调试 np.random.seed(2) #初始化第一层权重矩阵(乘以0.01让初始值较小,避免梯度消失/爆炸) W1=np.random.randn(n_h,n_x)*0.01 #初始化第一层偏置向量(初始化为 0) b1 = np.zeros((n_h,1)) W2=np.random.randn(n_y,n_h)*0.01 b2 = np.zeros((n_y,1)) parameters = { 'W1':W1, 'b1':b1, 'W2':W2, 'b2':b2 } return parameters#二.主体训练部分#1.前向传播def forward_propagation(X,parameters): #~~~~~~~~~~~~不需要Y #获取参数 W2 = parameters['W2'] b2 = parameters['b2'] W1 = parameters['W1'] b1 = parameters['b1'] #正向传播计算 Z1 = np.dot(W1,X)+b1 A1 = np.tanh(Z1) Z2 = np.dot(W2,A1)+b2 A2 = sigmoid(Z2) assert(A2.shape == (1, X.shape[1]))#~~~~~~~~~~~~~~~~~增加一个确认尺寸 cache = { 'Z1':Z1, 'A1':A1, 'Z2':Z2, 'A2':A2 } return A2,cache#求cost成本函数def compute_costs(X,Y,A2): m = X.shape[1] #求样本数量 costs=(-1/m)*np.sum(np.multiply(Y,np.log(A2))+np.multiply((1-Y),np.log(1-A2))) #求交叉熵损失函数 #np.squeeze()专门用来“挤压”掉那些大小为 1 的维度 #如果costs的形状是[[17]](形状为(1,1)),np.squeeze会把它变成纯数字17。 costs = np.squeeze(costs) assert(isinstance(costs, float)) return costs#2.反向传播计算梯度def backward_propagation(X,Y,cache,parameters): m = X.shape[1] W2 = parameters['W2'] b2 = parameters['b2'] W1 = parameters['W1'] b1 = parameters['b1'] A1 = cache['A1'] Z1 = cache['Z1'] A2 = cache['A2'] Z2 = cache['Z2'] #反向传播求梯度 dZ2 = A2-Y dW2 = np.dot(dZ2,A1.T)/m db2 = np.sum(dZ2,axis = 1,keepdims = True)/m dZ1 = np.dot(W2.T,dZ2)*(1-np.power(A1,2)) dW1 = np.dot(dZ1,X.T)/m db1 = np.sum(dZ1,axis = 1,keepdims = True)/m grads = { 'dW2':dW2, 'db2':db2, 'dW1':dW1, 'db1':db1, } return grads#3.更新参数def update_paramegters(grabs,parameters,learning_rate = 1.2): dW2 = grabs['dW2'] db2 = grabs['db2'] dW1 = grabs['dW1'] db1 = grabs['db1'] parameters['W2'] -= learning_rate*dW2 parameters['b2'] -= learning_rate*db2 parameters['W1'] -= learning_rate*dW1 parameters['b1'] -= learning_rate*db1 return parameters#三.模型集成def nn_model(X,Y,n_h,num_iterations = 10000,print_cost=True): np.random.seed(3) #设置随机种子,确保每次运行结果一致 #0.定义神经网络结构 n_x,n_h,n_y = layer_size(X,Y) #1.随机初始化参数 parameters = initialize_parameters(n_x,n_h,n_y) for i in range(num_iterations): #for循环重复迭代训练进行反复梯度下降 #2.前向传播计算cost成本 A2,cache = forward_propagation(X,parameters) costs = compute_costs(X,Y,A2) #3.反向传播计算梯度 grads = backward_propagation(X,Y,cache,parameters) #4.更新参数 parameters = update_parameters(grads,parameters,learning_rate = 1.2) #打印costs if print_cost and i % 1000 == 0: print(f'{i} costs is :{costs}') return parameters#四.预测def predict(parameters,X): A2,cache = forward_propagation(X,parameters) predictions = (A2>0.5) return predictions# 新建一个单隐藏层模型,隐藏层维度为n_h = 4parameters = nn_model(X, Y, n_h = 4, num_iterations = 10000, print_cost=True)# 画个决策边界plot_decision_boundary(lambda x: predict(parameters, x.T), X,Y.reshape(X[0,:].shape))plt.title("Decision Boundary for hidden layer size " + str(4))plt.show()本篇核心是单隐层神经网络(Single Hidden Layer Neural Network)。为了彻底弄懂,我们假设一个具体的网络结构:输入层有 个特征,隐藏层有 个神经元,输出层有 1 个神经元(用于二分类)。
将整个计算过程分为前向传播、损失计算和反向传播三个阶段来详细拆解。
目标:从输入数据计算出预测值
1. 隐藏层计算
tanh 或 ReLU。tanh 会将结果压缩到 之间,为网络引入了非线性,这是它比逻辑回归强大的关键。2. 输出层计算
目标:衡量预测值 和真实标签 之间的差距
使用交叉熵损失(Cross-Entropy Loss):
目标:计算损失函数对每个参数的梯度,用于更新参数
这里用到链式法则(Chain Rule)。我们从输出层往回倒推:
1. 输出层的梯度
np.sum(dZ2, axis=1, keepdims=True) / m)2. 隐藏层的梯度
* 是逐元素相乘(Element-wise),不是矩阵乘法。tanh 函数的导数。因为 的导数是 ,而 就是 。目标:沿着梯度的反方向,让损失 变小
总结:公式相对复杂,但不需要死记硬背,需要记住前向传播的逻辑,然后理解反向传播中链式法则的求导过程。重点检查每一步矩阵的维度是否匹配,只要维度对得上,公式基本就不会写错,导数推导过程就不详细写了,后面可能会新开一篇单独讲下。
下篇将更新深层神经网络内容,对于本篇各位同学和前辈有什么心得或建议欢迎留言一起交流。谢谢看完,晚安~~