DeepSeek大模型高性能核心技术与多模态融合开发

爱编程的喵喵

已于 2025-04-17 14:30:41 修改

阅读量1.5w

点赞数 41

分类专栏：优质书籍推荐文章标签：大模型 deepseek

于 2025-04-01 11:27:45 首次发布

本文链接：https://blog.csdn.net/weixin_43178406/article/details/146905744

版权

优质书籍推荐专栏收录该内容

48 篇文章

订阅专栏

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。

本文主要介绍了DeepSeek大模型高性能核心技术与多模态融合开发，希望能对学习大模型的同学们有所帮助。

1. 前言

多模态大模型DeepSeek以其卓越的技术与出色的性能，在人工智能领域熠熠生辉，成为一颗璀璨的明珠。其成功的秘诀在于对注意力机制的突破性创新与MoE创新架构的巧妙运用，为人工智能领域带来了前所未有的变革。

DeepSeek不仅在理论上取得了显著突破，更在实际应用中展现出其强大的能力。通过高效融合多种模态的数据，DeepSeek在图像识别、自然语言处理、语音识别等领域均取得了令人瞩目的成果，为人工智能的多元化应用提供了强大的支持。
在这里插入图片描述

2. 书籍推荐

因此，像《DeepSeek大模型高性能核心技术与多模态融合开发》这样一本全面且系统地介绍DeepSeek大模型应用开发的书是非常必要的。
在这里插入图片描述

2.1 内容简介

《DeepSeek大模型高性能核心技术与多模态融合开发》深入剖析国产之光DeepSeek多模态大模型的核心技术，从高性能注意力机制切入，深入揭示DeepSeek的技术精髓与独特优势，详细阐述其在人工智能领域成功的技术秘诀。《DeepSeek大模型高性能核心技术与多模态融合开发》循序渐进地讲解深度学习注意力机制的演进，从经典的多头注意力（MHA）逐步深入DeepSeek的核心技术—多头潜在注意力（MLA）与混合专家模型（MoE）。此外，《DeepSeek大模型高性能核心技术与多模态融合开发》还将详细探讨DeepSeek中的多模态融合策略、技术及应用实例，为读者提供全面的理论指导与应用实践。《DeepSeek大模型高性能核心技术与多模态融合开发》配套所有示例源码、PPT课件、配图PDF文件与读者微信技术交流群。

《DeepSeek大模型高性能核心技术与多模态融合开发》共分15章，内容涵盖高性能注意力与多模态融合概述、PyTorch深度学习环境搭建、DeepSeek注意力机制详解（包括基础篇、进阶篇、高级篇及调优篇）、在线与本地部署的DeepSeek实战（如旅游特种兵迪士尼大作战、广告文案撰写与微调、智能客服等），以及多模态融合技术与实战应用（如Diffusion可控图像生成、多模态图文理解与问答、交叉注意力语音转换、端到端视频分类等）。

2.2 本书作者

王晓华，高校计算机专业讲师，研究方向为云计算、大数据与人工智能。其著作包括《深入探索Mamba模型架构与应用》《PyTorch深度学习与计算机视觉实践》《PyTorch语音识别实战》《ChatGLM3大模型本地化部署、应用开发与微调》《从零开始大模型开发与微调：基于PyTorch与ChatGLM》《PyTorch 2.0深度学习从零开始学》《Spark 3.0大数据分析与挖掘：基于机器学习》《TensorFlow深度学习应用实践》《OpenCV+TensorFlow深度学习与计算机视觉实战》《TensorFlow语音识别实战》《TensorFlow 2.0卷积神经网络实战》《深度学习的数学原理与实现》。

2.3 本书目录

第1章  高性能注意力与多模态融合1

1.1  从涌现到飞跃：高性能大模型的崛起1

1.1.1  大模型的“涌现”2

1.1.2  大模型的发展历程3

1.1.3  高性能大模型的崛起4

1.2  大模型的内功：高性能注意力机制的崛起5

1.2.1  注意力机制的基本原理5

1.2.2  注意力机制的变革与发展6

1.2.3  高性能注意力机制崛起：GQA与MLA6

1.3  大模型的外拓：多模态融合7

1.3.1  多模态外拓及其挑战7

1.3.2  融合策略与技术概览7

1.3.3  深度学习在多模态融合中的应用场景9

1.4  高性能注意力与多模态融合的未来展望10

1.4.1  融合技术的创新方向11

1.4.2  注意力机制的前沿探索11

1.5  本章小结12

第2章  PyTorch深度学习环境搭建13

2.1  安装Python开发环境13

2.1.1  Miniconda的下载与安装13

2.1.2  PyCharm的下载与安装16

2.1.3  计算softmax函数练习20

2.2  安装PyTorch 2.021

2.2.1  NVIDIA 10/20/30/40系列显卡选择的GPU版本21

2.2.2  PyTorch 2.0 GPU NVIDIA运行库的安装21

2.2.3  Hello PyTorch24

2.3  多模态大模型DeepSeek初探与使用24

2.3.1  DeepSeek模型简介25

2.3.2  DeepSeek带来的技术创新26

2.3.3  DeepSeek的第三方服务与使用示例27

2.4  本章小结29

第3章  注意力机制详解之基础篇30

3.1  注意力机制与模型详解30

3.1.1  注意力机制详解31

3.1.2  自注意力（Self-Attention）机制32

3.1.3  自注意力的代码实现37

3.1.4  ticks和Layer Normalization38

3.1.5  多头自注意力39

3.2  注意力机制的应用实践：编码器42

3.2.1  自编码器的总体架构42

3.2.2  回到输入层：初始词向量层和位置编码器层43

3.2.3  前馈层的实现46

3.2.4  将多层模块融合的TransformerBlock层47

3.2.5  编码器的实现48

3.3  基础篇实战：自编码架构的拼音汉字生成模型53

3.3.1  汉字拼音数据集处理54

3.3.2  搭建文本与向量的桥梁—Embedding56

3.3.3  自编码模型的确定58

3.3.4  模型训练部分的编写59

3.4  本章小结60

第4章  注意力机制详解之进阶篇62

4.1  注意力机制的第二种形态：自回归架构62

4.1.1  自回归架构重大突破：旋转位置编码63

4.1.2  添加旋转位置编码的注意力机制与现有库包的实现64

4.1.3  新型的激活函数SwiGLU详解66

4.1.4  “因果掩码”与“错位”输入输出格式详解67

4.2  进阶篇实战1：无须位置表示的酒店评论情感判断69

4.2.1  数据集的准备与读取69

4.2.2  使用sentencepiece建立文本词汇表70

4.2.3  编码情感分类数据集71

4.2.4  基于新架构文本分类模型设计72

4.2.5  情感分类模型的训练与验证75

4.3  进阶篇实战2：基于自回归模型的酒店评论生成77

4.3.1  数据集的准备与读取77

4.3.2  基于自回归文本生成模型的设计78

4.3.3  评论生成模型的训练82

4.3.4  使用训练好的模型生成评论83

4.4  本章小结83

第5章  注意力机制详解之高级篇85

5.1  替代前馈层的混合专家模型详解86

5.1.1  混合专家模型的基本结构86

5.1.2  混合专家模型中的“专家”与“调控”代码实现87

5.2  高级篇实战1：基于混合专家模型的情感分类实战91

5.2.1  基于混合专家模型的MoE评论情感分类实战91

5.2.2  混合专家模型中负载平衡的实现94

5.2.3  修正后的MoE门控函数96

5.3  带有MoE的注意力模型97

5.3.1  注意力机制中的前馈层不足98

5.3.2  MoE天然可作为前馈层101

5.3.3  结合MoE的注意力机制104

5.4  高级篇实战2：基于通道注意力的图像分类105

5.4.1  数据集的准备105

5.4.2  图像识别模型的设计107

5.4.3  结合通道注意力图像分类模型108

5.4.4  图像识别模型SENet的训练与验证110

5.5  高级篇实战3：基于MoE与自注意力的图像分类111

5.5.1  基于注意力机制的ViT模型112

5.5.2  Patch和Position Embedding114

5.5.3  可视化的V-MoE详解116

5.5.4  V-MoE模型的实现118

5.5.5  基于图像识别模型V-MoE的训练与验证119

5.5.6  使用已有的库包实现MoE121

5.6  本章小结122

第6章  注意力机制详解之调优篇124

6.1  注意力模型优化方案讲解124

6.1.1  注意力模型优化1：MQA模型125

6.1.2  注意力模型优化2：MLA模型127

6.1.3  注意力模型优化3：GQA模型129

6.1.4  注意力模型优化4：差分注意力模型134

6.2  调优篇实战1：基于MLA的人类语音情感分类140

6.2.1  情绪数据的获取与标签的说明140

6.2.2  情绪数据集的读取141

6.2.3  语音情感分类模型的设计和训练143

6.3  本章小结144

第7章  旅游特种兵迪士尼大作战：DeepSeek API调用与高精准路径优化146

7.1  基于在线API的大模型调用147

7.1.1  DeepSeek的注册与API获取147

7.1.2  带有特定格式的DeepSeek的API调用149

7.1.3  带有约束的DeepSeek的API调用150

7.2  智能化DeepSeek工具调用详解153

7.2.1  Python使用工具的基本原理154

7.2.2  在DeepSeek中智能地使用工具154

7.2.3  在DeepSeek中选择性地使用工具157

7.2.4  DeepSeek工具调用判定依据165

7.3  旅游特种兵迪士尼大作战：DeepSeek高精准路径优化170

7.3.1  游乐场数据的准备170

7.3.2  普通大模型的迪士尼游玩求解攻略173

7.3.3  基于动态规划算法的迪士尼游玩求解攻略174

7.3.4  基于DeepSeek的旅游特种兵迪士尼大作战176

7.4  本章小结178

第8章  广告文案撰写实战：多模态DeepSeek本地化部署与微调179

8.1  多模态DeepSeek-VL2本地化部署与使用180

8.1.1  Linux版本DeepSeek-VL2代码下载与图像问答180

8.1.2  Windows版本DeepSeek-VL2代码下载182

8.2  广告文案撰写实战1：PEFT与LoRA详解183

8.2.1  微调的目的：让生成的结果更聚焦于任务目标183

8.2.2  微调经典方法LoRA详解185

8.2.3  适配DeepSeek微调的辅助库PEFT详解187

8.3  广告文案撰写实战2：本地化DeepSeek-VL2微调190

8.3.1  数据的准备190

8.3.2  微调模型的训练192

8.3.3  微调模型的使用与推断194

8.4  本章小结196

第9章  注意力与特征融合范式1：Diffusion可控图像生成197

9.1  Diffusion生成模型精讲197

9.1.1  Diffusion Model的精讲198

9.1.2  直接运行的经典DDPM的模型训练实战199

9.1.3  DDPM的模型基本模块说明202

9.1.4  DDPM加噪与去噪详解：结合成功运行的扩散模型代码205

9.1.5  DDPM的损失函数：结合成功运行的Diffusion Model代码210

9.2  可控图像生成实战：融合特征的注意力机制211

9.2.1  扩散模型可控生成的基础：特征融合212

9.2.2  注意力MQA中的可控特征融合212

9.2.3  基于注意力的扩散模型的设计214

9.2.4  图像的加噪与模型训练217

9.2.5  基于注意力模型的可控图像生成220

9.3  本章小结223

第10章  注意力与特征融合范式2：多模态图文理解与问答224

10.1  多模态图文问答实战224

10.1.1  一种新的多模态融合方案225

10.1.2  数据集的设计与使用228

10.1.3  多模态融合数据集的训练229

10.1.4  多模态图文问答的预测230

10.2  更多的多模态融合方案231

10.2.1  一种截断的多模态融合方案231

10.2.2  截断后多模态模型的训练与预测234

10.2.3  一种加法基础的多模态融合方案235

10.3  本章小结237

第11章  注意力与特征融合范式3：交叉注意力语音转换239

11.1  端到端语音识别任务简介239

11.1.1  端到端的语音识别240

11.1.2  中文语音文本数据集说明241

11.2  端到端音频特征提取库librosa的使用243

11.2.1  音频信号的基本读取方法243

11.2.2  多特征音频抽取246

11.3  端到端语音识别任务简介248

11.3.1  全中文音频数据集的准备248

11.3.2  音频特征的提取与融合250

11.3.3  基于生成模型的端到端语音识别任务253

11.3.4  端到端语音识别任务的训练与预测255

11.4  基于PyTorch的数据处理与音频特征融合257

11.4.1  THCHS30数据集的处理257

11.4.2  基于torchaudio的音频预处理258

11.4.3  基于不同角度的音频特征获取和简单融合260

11.4.4  关于特征融合的讲解261

11.5  用于特征融合的交叉注意力262

11.5.1  交叉注意力详解262

11.5.2  带有掩码的交叉注意力265

11.5.3  完整的带有掩码的交叉注意力端到端语音识别267

11.5.4  基于交叉注意力的端到端语音识别的训练与预测269

11.5.5  基于连接concat的端到端语音识别模型269

11.6  本章小结271

第12章  多模态特征token压缩272

12.1  图像特征压缩的多种实现272

12.1.1  Pixel-Shuffle的token压缩272

12.1.2  Cross-layer Token Fusion压缩274

12.1.3  AvgPool的token压缩277

12.2  基于AvgPool与自编码器的语音识别278

12.2.1  修改后的AvgPool函数278

12.2.2  自编码器语音识别模型1：数据准备279

12.2.3  自编码器语音识别模型2：模型设计280

12.2.4  自编码器语音识别模型3：模型的训练与预测281

12.3  本章小结282

第13章  从二维到一维：图像编码器详解与图形重建实战283

13.1  图像编码器284

13.1.1  从自然语言处理讲起284

13.1.2  图像的编码与解码VQ-VAE285

13.1.3  为什么VQ-VAE采用离散向量285

13.1.4  VQ-VAE的核心实现287

13.2  基于VQ-VAE的手写体生成289

13.2.1  图像的准备与超参数设置289

13.2.2  VQ-VAE的编码器与解码器291

13.2.3  VQ-VAE的模型设计295

13.2.4  VQ-VAE的训练与预测297

13.2.5  获取编码后的离散token299

13.3  基于FSQ的人脸生成300

13.3.1  FSQ算法简介与实现301

13.3.2  人脸数据集的准备303

13.3.3  基于FSQ的人脸重建方案304

13.3.4  基于FSQ的人脸输出与离散token306

13.4  基于FSQ算法的语音存储307

13.4.1  无监督条件下的语音存储307

13.4.2  可作为密码机的离散条件下的语音识别308

13.5  本章小结309

第14章  基于PyTorch的端到端视频分类实战310

14.1  视频分类数据集的准备310

14.1.1  HMDB51数据集的准备311

14.1.2  视频抽帧的处理312

14.1.3  基于PyTorch的数据输入314

14.2  注意力视频分类实战315

14.2.1  对于视频的Embedding编码器316

14.2.2  视频分类模型的设计317

14.2.3  视频分类模型的训练与验证320

14.3  使用预训练模型的视频分类321

14.3.1  torchvision简介321

14.3.2  基于torchvision的端到端视频分类实战324

14.4  本章小结326

第15章  基于DeepSeek的跨平台智能客服开发实战328

15.1  智能客服的设计与基本实现328

15.1.1  智能客服搭建思路329

15.1.2  商品介绍数据的格式与说明329

15.1.3  基于DeepSeek的智能客服设计334

15.2  带有跨平台客户端的智能客服开发实战337

15.2.1  跨平台客户端Gradio使用详解337

15.2.2  一个简单的Gradio示例343

15.2.3  基于DeepSeek的跨平台智能客服实现343

15.3  本章小结346