一文看懂——BP神经网络

WenJGo

已于 2025-04-19 21:04:41 修改

阅读量2k

点赞数 23

分类专栏： AI学习之路 Python之路文章标签：神经网络人工智能深度学习 BP神经网络机器学习

于 2025-04-17 09:00:00 首次发布

本文链接：https://blog.csdn.net/DDDDWJDDDD/article/details/147099391

版权

AI学习之路同时被 2 个专栏收录

96 篇文章

订阅专栏

Python之路

88 篇文章

订阅专栏

BP神经网络详解（Back Propagation Neural Network）

1. 前向传播（Forward Propagation）

2. 反向传播（Back Propagation）

BP神经网络详解（Back Propagation Neural Network）

一、引言

在人工智能与机器学习的发展中，人工神经网络（Artificial Neural Network, ANN）作为一种模拟人脑神经元结构和功能的计算模型，具有强大的非线性拟合能力。而其中最经典、最基础的结构之一就是BP神经网络（Back Propagation Neural Network），即误差反向传播神经网络。

BP神经网络不仅是深度学习的前身，也是当前深度神经网络训练的基础，其原理的理解对后续复杂模型的学习至关重要。

二、基本概念与结构

1. 神经网络的基本组成

BP神经网络是一种前馈神经网络，由以下几部分组成：

输入层（Input Layer）：接收外部输入信号。
隐藏层（Hidden Layer）：进行特征转换与信息加工。
输出层（Output Layer）：输出网络的最终结果。
权重（Weight）：连接神经元之间的参数，决定信号传递强度。
偏置（Bias）：调节神经元激活的阈值，提高模型表达能力。

2. BP网络的拓扑结构

BP网络通常是多层前馈结构（Multi-layer Feedforward Network），层与层之间全连接。每个神经元通过激活函数将加权输入映射为输出信号。

三、工作原理

BP神经网络训练过程主要分为两个阶段：

1. 前向传播（Forward Propagation）

输入数据从输入层开始，逐层传递至输出层，过程如下：

对于第 l 层的第 j 个神经元，其输入与输出为：

加权输入：
$z_j^{(l)} = \sum_i w_{ji}^{(l)} a_i^{(l-1)} + b_j^{(l)}$
激活输出：
$a_j^{(l)} = f(z_j^{(l)})$

其中：

$w_{ji}^{(l)}$ ：第 l 层第 j 个神经元与上一层第 i 个神经元之间的权重
$b_j^{(l)}$ ：偏置项
$f$ ：激活函数（常用Sigmoid、ReLU等）
$a_i^{(l-1)}$ ：前一层的输出

2. 反向传播（Back Propagation）

当网络产生输出后，通过损失函数计算预测结果与实际结果之间的误差，再将误差反向传播至每一层，更新权重和偏置。

（1）损失函数

常用的损失函数为均方误差（MSE）或交叉熵等。例如MSE：

$E = \frac{1}{2} \sum_j (y_j - a_j^{(L)})^2$

其中 $y_j$ 为真实值， $a_j^{(L)}$ 为输出层第 $j$ 个神经元的预测值。

（2）误差计算

定义误差项 $\delta_j^{(l)}$ 表示第 l 层第 j 个神经元的误差信号：

输出层误差：
$\delta_j^{(L)} = (a_j^{(L)} - y_j) \cdot f'(z_j^{(L)})$
隐藏层误差：
$\delta_j^{(l)} = \left( \sum_k \delta_k^{(l+1)} w_{kj}^{(l+1)} \right) \cdot f'(z_j^{(l)})$

（3）参数更新

利用梯度下降法调整权重和偏置：

更新权重：
$w_{ji}^{(l)} \leftarrow w_{ji}^{(l)} - \eta \cdot \delta_j^{(l)} \cdot a_i^{(l-1)}$
更新偏置：
$b_j^{(l)} \leftarrow b_j^{(l)} - \eta \cdot \delta_j^{(l)}$

其中 $\eta$ 是学习率。

四、激活函数

激活函数引入非线性变换，是BP神经网络的重要组成部分。常见函数有：

函数	表达式	特点
Sigmoid	$f(x) = \frac{1}{1 + e^{-x}}$	值域(0,1)，易饱和
Tanh	$f(x) = \tanh(x)$	值域(-1,1)，中心对称
ReLU	$f(x) = \max(0,x)$	计算高效，适合深层网络

五、训练过程概述

一个完整的BP网络训练流程如下：

初始化权重和偏置（可随机）。
对每个训练样本执行：
- 前向传播计算输出；
- 计算损失函数；
- 反向传播误差信号；
- 使用梯度下降更新参数。
重复多轮（Epoch），直到损失收敛。

六、BP神经网络的优缺点

优点

理论成熟、实现简单；
可以逼近任意非线性函数；
是深度学习模型的基础。

缺点

训练速度慢，容易陷入局部最优；
对初始值敏感；
需要大量训练数据；
多层网络中容易出现梯度消失问题。

七、应用领域

BP神经网络广泛应用于：

模式识别（如字符识别、语音识别）；
非线性函数拟合；
时间序列预测；
图像处理等。

八、示意图（简化）

输入层     隐藏层       输出层
 x1  ----\
 x2  ----->●---         y1
 x3  ----/     \---->●------
             ●---         y2

每个箭头代表一个带权连接，隐藏层和输出层神经元都通过激活函数输出信号。

九、示例代码

手动实现一个简单的三层网络（输入层、隐藏层、输出层），用于解决一个常见问题——异或（XOR）问题。

异或问题是线性不可分问题，非常适合用来演示BP神经网络如何学习非线性关系。

import numpy as np
import matplotlib.pyplot as plt
from matplotlib import rcParams


# 设置中文字体为微软雅黑（适用于 Windows）
rcParams['font.family'] = 'Microsoft YaHei'
# 避免负号无法正常显示
rcParams['axes.unicode_minus'] = False
# 激活函数及导数
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return x * (1 - x)

# 训练数据（XOR问题）
X = np.array([[0, 0],
              [0, 1],
              [1, 0],
              [1, 1]])

y = np.array([[0],
              [1],
              [1],
              [0]])

# 随机种子（可复现）
np.random.seed(42)

# 网络结构
input_neurons = 2
hidden_neurons = 4
output_neurons = 1

# 权重和偏置初始化
weights_input_hidden = np.random.uniform(size=(input_neurons, hidden_neurons))
weights_hidden_output = np.random.uniform(size=(hidden_neurons, output_neurons))
bias_hidden = np.random.uniform(size=(1, hidden_neurons))
bias_output = np.random.uniform(size=(1, output_neurons))

# 超参数
lr = 0.5
epochs = 10000
mse_list = []  # 用于记录误差变化

# 训练过程
for epoch in range(epochs):
    # 前向传播
    hidden_input = np.dot(X, weights_input_hidden) + bias_hidden
    hidden_output = sigmoid(hidden_input)
    final_input = np.dot(hidden_output, weights_hidden_output) + bias_output
    final_output = sigmoid(final_input)

    # 误差计算
    error = y - final_output
    mse = np.mean(np.square(error))
    mse_list.append(mse)

    # 反向传播
    d_output = error * sigmoid_derivative(final_output)
    d_hidden = (d_output.dot(weights_hidden_output.T)) * sigmoid_derivative(hidden_output)

    # 更新参数
    weights_hidden_output += hidden_output.T.dot(d_output) * lr
    weights_input_hidden += X.T.dot(d_hidden) * lr
    bias_output += np.sum(d_output, axis=0, keepdims=True) * lr
    bias_hidden += np.sum(d_hidden, axis=0, keepdims=True) * lr

# ========= 可视化部分 =========

# 误差曲线图
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.plot(mse_list, label='MSE')
plt.title('误差下降曲线 (MSE)')
plt.xlabel('Epoch')
plt.ylabel('Mean Squared Error')
plt.grid(True)
plt.legend()

# 预测结果对比图
plt.subplot(1, 2, 2)
predicted = final_output.flatten()
plt.bar(range(4), predicted, alpha=0.6, label='预测值')
plt.plot(range(4), y.flatten(), 'ro--', label='真实值')
plt.title('预测 vs 真实 (XOR输出)')
plt.xlabel('样本编号')
plt.ylabel('输出值')
plt.xticks([0, 1, 2, 3], ['0,0', '0,1', '1,0', '1,1'])
plt.ylim(-0.1, 1.1)
plt.legend()
plt.tight_layout()
plt.show()

# 打印预测结果
print("最终预测输出：")
for i in range(4):
    print(f"输入: {X[i]} -> 预测值: {predicted[i]:.4f}, 真实值: {y[i][0]}")

Epoch 0, MSE: 0.3855
Epoch 1000, MSE: 0.0168
Epoch 2000, MSE: 0.0025
Epoch 3000, MSE: 0.0012
Epoch 4000, MSE: 0.0008
Epoch 5000, MSE: 0.0006
Epoch 6000, MSE: 0.0004
Epoch 7000, MSE: 0.0004
Epoch 8000, MSE: 0.0003
Epoch 9000, MSE: 0.0003

训练完成！
输入:
[[0 0]
[0 1]
[1 0]
[1 1]]
预测输出:
[[0.01617295]
[0.98334289]
[0.98758845]
[0.01468905]]
真实输出:
[[0]
[1]
[1]
[0]]