李沐-16 PyTorch 神经网络基础【动手学深度学习v2】

本文链接：https://blog.csdn.net/ADDDDDDS/article/details/137840130

本文详细介绍了PyTorch中层和块的概念，包括单层和多层模型结构，自定义块的创建与应用，以及Sequential类的作用。文章还涵盖了参数管理，如访问、初始化和绑定，以及自定义层的实现，同时讨论了文件读写在模型持久化中的角色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

注：1. 沐神对应章节视频出处

2.代码使用Jupyter Notebook运行更方便

3.文章笔记出处

一、层和块

层：层（1）接受一组输入，（2）生成相应的输出，（3）由一组可调整参数描述。当我们使用softmax回归时，一个单层本身就是模型。然而，即使我们随后引入了多层感知机，我们仍然可以认为该模型保留了上面所说的基本架构。

块：块（block）可以描述单个层、由多个层组成的组件或整个模型本身。使用块进行抽象的一个好处是可以将一些块组合成更大的组件，这一过程通常是递归的，如图所示。通过定义代码来按需生成任意复杂度的块，我们可以通过简洁的代码实现复杂的神经网络。

从编程的角度来看，块由类（class）表示。它的任何子类都必须定义一个将其输入转换为输出的前向传播函数，并且必须存储任何必需的参数。注意，有些块不需要任何参数。最后，为了计算梯度，块必须具有反向传播函数。在定义我们自己的块时，由于框架的自动微分提供了一些后端实现，我们只需要考虑前向传播函数和必需的参数即可。

例如：

import torch
from torch import nn
from torch.nn import functional as F

net = nn.Sequential(nn.Linear(20, 256), nn.ReLU(), nn.Linear(256, 10))

X = torch.rand(2, 20)
net(X)

结果：

在这个例子中，我们通过实例化nn.Sequential来构建我们的模型， 层的执行顺序是作为参数传递的。简而言之，nn.Sequential定义了一种特殊的Module，即在PyTorch中表示一个块的类，它维护了一个由Module组成的有序列表。注意，两个全连接层都是Linear类的实例， Linear类本身就是Module的子类。另外，到目前为止，我们一直在通过net(X)调用我们的模型来获得模型的输出。这实际上是net.__call__(X)的简写。这个前向传播函数非常简单：它将列表中的每个块连接在一起，将每个块的输出作为下一个块的输入。