自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

原创 手撕LLM(五):从源码出发,探索多模态VL模型的推理全流程

多模态大模型推理的全流程代码实现

2025-04-20 18:57:53 793

原创 手撕LLM(四):从源码出发,探索大模型的预训练(pretrain)过程

大语言模型的预训练过程源码分析

2025-04-19 16:38:43 786

原创 手撕LLM(三):从源码出发,探索Dense模型和MoE模型在模型结构上的区别

从代码出发,探索MoE架构的大模型与稠密模型的区别

2025-04-09 11:15:50 1191

原创 手撕LLM(二):从源码出发,探索LoRA加载、推理全流程

从源码出发,一步一步定义、添加LoRA层,从代码层面观察LoRA是如何实现的

2025-04-06 16:27:32 1046

原创 手撕LLM(一):从源码出发,探索LLM推理全流程

从代码出发,展现大模型推理的完整流程

2025-04-05 22:34:48 796

原创 RAG组件:文本Chunk生成

在选择切块工具时,应根据具体的文档类型、语言特点和应用场景进行选择。对于大多数场景,LangChain 和 Hugging Face 的工具链是非常不错的选择。同时,在切块过程中,务必注意语义完整性、块大小控制和重叠窗口的设置,以确保最终的知识库能够高效地支持检索和生成任务。

2025-03-28 11:34:50 658

原创 RAG组件:Embedding词嵌入模型

理解了Embedding词嵌入模型,我们可以通过各种方式调用、抽取语义向量,并且利用获取到的向量信息进行相似度计算、进行进一步的self-attention运算等等。

2025-03-27 00:22:04 831

原创 Dify:使用dify搭建包含RAG的法律表述判断工作流

RAG、工作流

2025-03-26 00:59:01 1146

原创 Ollama + CherryStudio:构建本地私有知识库

前面我们介绍了,并通过Open-WebUI进行调用,相信大家对Ollama也有了一定的了解;这篇博文就结合Ollama工具和CherryStudio工具构建一个本地知识库(RAG);在进行接下来的操作之前,需要本地已经安装并配置好Ollama工具,还没有安装的小伙伴可以根据完成本地安装;

2025-03-17 23:25:17 1149

原创 Ollama:大模型部署工具安装及使用

通过PULL命令只可以拉取官方商城维护的预训练模型,如果我们通过LLaMA-Factory等工具微调了一个垂类大模型,想通过Ollama来部署,该如何操作呢?

2025-03-16 00:23:44 977

原创 Spark-TTS:基于大模型的文本语音合成工具

Spark TTS完全基于Qwen2.5构建,无需额外的生成模型,它不依赖于单独的模型来生成声学特征,而是直接从LLM预测的代码中重建音频。这种方法简化了流程,提高了效率并降低了复杂性;支持零样本语音克隆,它可以直接复制说话者的语音。这是跨语言和代码转换场景的理想选择,允许语言和语音之间的无缝转换,而不需要对每种语言进行单独的培训;支持中文和英文两种语言,使模型能够以高自然度和准确性合成多种语言的语音;支持通过调整性别、音高和语速等参数来创建虚拟说话者。

2025-03-09 22:02:52 3523 5

原创 Mlivus:索引类型对比

索引类型精度速度存储空间适用场景IVF_FLAT高中高大规模数据,内存充足IVF_SQ8中快中存储受限,中等精度需求IVF_PQ低快低高维向量,存储受限HNSW中快中高维向量,高速检索需求ANNOY中快低中低维向量,简单配置需求DISKANN中慢低超大规模数据,磁盘存储为主RNSG高快中高维向量,高效检索需求。

2025-03-04 18:58:38 803

原创 RAG组件:向量数据库(Milvus)

Milvus 是一款开源的向量数据库,其高性能、分布式、专为 AI 和机器学习设计的向量数据库,广泛应用于推荐系统、图像检索、自然语言处理等领域;它支持多种数据类型(如图片、文本、音频等)的嵌入式表示,并提供快速的相似性搜索能力;1.1 核心功能:支持基于距离度量(如欧几里得距离、余弦相似度等)的高效查询。能够轻松处理数十亿甚至上百亿的向量数据。支持水平扩展,满足高性能和高并发需求。可以处理图像、文本、音频等多种非结构化数据。

2025-03-03 18:04:51 1245

原创 垂类大模型微调(四):基于小参数多模态模型的全量(full)SFT微调

前面我们介绍了、简单展示了其以及总结了一些和;那接下来我们就结合具体的应用场景,微调一个垂类大模型,话不多说,我们开始吧~

2025-03-02 17:34:58 777

原创 大模型组件:分词器(tokenizer)

最后,我们再用通俗的话总结一下它的流程:1)输入语言文本给分词器;2)分词器拿到文本信息,根据具体的分词算法(例如:BPE)将文本划分为单个的词元(token);3)根据对应的词汇表将每个词元对应唯一编码(token ID);4)分词器输出这些唯一编码给Embeding词嵌入模型;到这里分词器的输入任务就完成了5)词嵌入模型将token ID映射到固定维度的语义空间,生成语义特征张量;6)将语义特征张量添加位置索引等信息后送入transformer模块进行推理;

2025-02-27 15:49:32 928

原创 StepAudio:语音大模型

Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统,支持多语言对话(如 中文,英文,日语),语音情感(如 开心,悲伤),方言(如 粤语,四川话)等功能;: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能,开源千亿参数多模态模型 Step-Audio-Chat;

2025-02-25 22:26:48 1661 4

原创 垂类大模型微调(三):大模型训练、微调、量化相关理论基础

定义:监督微调是使用高质量的人类标注数据对预训练模型进行进一步训练,使其更好地适应特定任务。作用:提升模型在特定场景下的表现,减少输出与人类期望之间的偏差。过程:使用输入-输出配对数据进行有监督训练。定义:DPO 是一种替代传统强化学习的方法,直接基于偏好数据优化模型参数,而不需要显式构建奖励模型。作用:简化了奖励建模的过程,同时保持了高效性和稳定性。特点不需要单独训练奖励模型。更加高效,适合大规模训练场景。

2025-02-25 08:09:29 1014

原创 垂类大模型微调(二):使用LLaMA-Factory

这里演示对Qwen2.5-0.5B-Instruct-GPTQ-Int4模型进行LoRA微调, 大家可以根据垂类大模型微调(一)从魔塔中下载对应模型;目前该工具支持指令监督微调(Alpaca格式)和多轮对话微调(ShareGPT格式)两种数据集格式,这里我们使用指令监督微调指令监督微调指令监督微调;"instruction": "指令(必填)","input": "文本输入(选填)","output": "标签回答(必填)"例如:"instruction": "将下面的句子翻译为中文",

2025-02-23 21:38:11 1333

原创 垂类大模型微调(一):认识LLaMA-Factory

高效微调支持支持多种微调技术(如 LoRA、QLoRA 等),显著降低显存消耗,即使在小规模 GPU(如单卡 24GB)上也能训练数十亿参数的模型。提供分布式训练优化,支持多卡并行和混合精度训练,加速训练过程。丰富的模型兼容性支持主流开源 LLM,包括 LLaMA、BLOOM、GPT-2、ChatGLM、Baichuan、Qwen 等。可灵活适配不同模型架构,方便用户快速切换或对比实验。用户友好性提供清晰的命令行接口(CLI)和 Web UI,用户无需深入编码即可配置训练参数、数据集和模型。

2025-02-23 15:25:51 1290

原创 FunASR:语音识别集成工具箱

FunASR是阿里巴巴达摩院开源的一款轻量级语音识别工具包,旨在为开发者提供高效、易用的语音处理解决方案。它集成了多种先进的语音识别技术和模型,支持语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等功能;任务名称主要目标应用场景技术特点ASR将语音转为文本字幕生成、语音助手声学模型+语言模型VAD检测语音活动语音信号预处理时间域或频域特征分析标点恢复添加标点符号自动化文本生成上下文语义理解说话人验证确认语音归属。

2025-02-19 23:00:11 2070

原创 深度学习模型常用激活函数集合

激活函数是深度学习模型中的关键组成部分,用于引入非线性特性,使神经网络能够学习复杂的模式和映射关系;神经网络本质上是一个复合函数。如果没有激活函数,无论网络有多少层,其输出都只是输入的线性组合。激活函数通过引入非线性,使模型能够拟合复杂的非线性数据分布;激活函数决定了神经元在给定输入下的输出值,从而控制神经元是否被激活;一些激活函数(如ReLU)具有稀疏性和计算效率高的特点,有助于加快训练过程;

2025-02-18 17:53:22 506

原创 Temperature Parameter:损失函数中的温度参数

在对比损失(如InfoNCE Loss)中,温度参数通常出现在相似度得分的归一化过程中。

2025-02-18 14:36:20 934

原创 滤波器:卡尔曼滤波

卡尔曼滤波器

2025-02-14 17:58:08 3828

原创 图像变换:了解透视变换原理及OpenCV实现

图像透视变换是一种将图像从一个视角转换到另一个视角的技术,通常用于校正拍摄角度引起的变形,或者模拟不同视角下的场景。

2025-02-14 10:56:43 1212

原创 vLLM框架:使用大模型推理框架

支持 CUDA 11.8 及以上(推荐 NVIDIA A100/H100,RTX 4090 等消费级卡需注意显存限制)vLLM 专为高效部署大规模语言模型设计,尤其适合高并发推理场景,关于对vLLM的介绍请看。: 至少 20GB(运行 7B 模型),推荐 40GB+(运行 13B/70B 模型):确保 CUDA 版本匹配,合理选择量化方案。:通过 OpenAPI 兼容接口快速构建服务。:利用连续批处理、动态块分配提升吞吐。:自动合并多个请求,提升吞吐量。:集成视觉模型实现图文联合推理。

2025-02-07 21:01:00 2641

原创 vLLM框架:认识大模型推理框架

vLLM通过创新的显存管理机制,为LLM推理设定了新标准。对于计算机视觉工程师,其技术思路对视觉大模型优化具有借鉴意义,同时为视觉-语言多模态应用提供了高效的推理基座。建议关注其多模态扩展进展,并尝试将PagedAttention思想迁移到视觉模型的显存优化中。

2025-02-07 15:11:53 4495

原创 Deepseek:免费、傻瓜式云端部署deepseek-R1蒸馏模型

魔塔(Modelscope)平台为大家提供了一键部署大模型的平台,本地简单几行代码就可以拥有专属的Deepseek-R1蒸馏模型应用,即便是一窍不通的小白,也可以部署起来,一起来看看吧!这样就部署起来自己专属的Deepseek模型啦,可以在终端与Deepseek进行对话,有兴趣的小伙伴可以尝试一下,如果有一定基础的同学,可以给自己的Deepseek构建一个WebUI界面,创建一个Web服务通过网页调用,建议使用Gradio库进行构建。2、刷新页面查看状态,部署成功后,点击下图中的‘立即使用’;

2025-02-06 15:02:17 1509

原创 深度学习模型格式转换:pytorch2onnx(包含自定义操作符)

假设我们想要实现一个自定义的ReLU6操作符。ReLU6是一种常用的激活函数,它与标准的ReLU类似,但有一个上限值 6。首先,我们需要在 C++ 中实现这个自定义操作符,并编译成一个共享库。PyTorch 提供了接口来注册自定义操作符,而 ONNX 则提供了来注册自定义操作符。我们可以在 C++ 中实现ReLU6操作符,并通过 PyTorch 的// 定义自定义的 ReLU6 操作符// 注册自定义操作符接下来,我们需要将这个 C++ 文件编译成一个共享库(例如.so。

2024-12-30 16:40:00 1593

原创 Pytorch常用内置优化器合集

SGD是最基础的优化器之一,它直接根据损失函数的梯度来更新模型参数。每次更新的公式为:θt 是当前的参数值。η 是学习率(learning rate),控制每次更新的步长。gt​ 是当前参数的梯度。在标准的 SGD 基础上引入了动量项,使得参数更新不仅依赖于当前的梯度,还考虑了之前更新的方向。动量项可以帮助加速收敛,并且有助于穿越平坦的区域(如鞍点)。更新公式为:vt是动量项,表示历史梯度的累积。β是动量系数,通常设置为 0.9。Adam。

2024-12-20 16:41:57 1279

原创 模型训练之优化器

优化器在深度学习模型的训练过程中扮演着至关重要的角色,它负责根据梯度更新模型参数,确保模型能够有效地最小化损失函数。优化器不仅要处理梯度问题(如梯度消失和梯度爆炸),还要加速收敛、防止过拟合,并支持分布式训练和动态调整学习率。选择合适的优化器和调整其超参数(如学习率、动量等)是训练成功的关键因素之一。

2024-12-20 15:56:11 949

原创 Pytorch常用内置损失函数合集

PyTorch 提供了多种内置的损失函数,适用于不同的任务和场景。这些损失函数通常已经优化并实现了常见的归约方式(如mean或sum),并且可以直接用于训练模型。

2024-12-20 15:15:22 1197

原创 唇形同步视频生成工具:Wav2Lip

生成器负责根据输入的音频波形生成逼真的面部动画,而判别器则负责区分生成的动画与真实的面部动画;生成器尝试生成与音频同步的面部动画,而两个判别器分别负责判断生成的动画与真实动画的同步性和视觉质量。Wav2Lip是一种用于生成唇形同步(lip-sync)视频的深度学习算法,它能够根据输入的音频流自动为给定的人脸视频添加准确的口型动作。根据github上的README,我们在硬件上需要有Nvidia的显卡,同时需要在python=3.6的环境下运行,这个判别器的目标是提高对声音与嘴型同步性的判断能力。

2024-12-06 20:14:03 2063

原创 SPP:空间金字塔池化

SPP/SPPF金字塔池化

2024-11-19 23:21:57 1268

原创 视觉常用Backbone大全:VisionTransformer(ViT)

视觉Backbone之ViT

2024-11-19 13:00:14 1452

原创 视觉常用Backbone大全

视觉Backbone汇总

2024-11-16 10:08:24 192

原创 视觉常用Backbone大全:MobileNet

视觉Backbone之MobileNet

2024-11-16 09:34:58 1040

原创 视觉常用Backbone大全:ResNet

视觉Backbone网络之ResNet

2024-11-15 13:07:20 1373

原创 视觉常用Backbone大全:VGG

视觉模型Backbone介绍之VGG系列

2024-11-15 10:10:52 1055

原创 开启后端服务:以UiE模型为例,通过Flask/gRPC两种方式开启web服务

UiE指的是“Universal Information Extraction”,即通用信息抽取。这是一种自然语言处理(NLP)技术,旨在从非结构化的文本数据中自动提取出结构化信息。这些信息可以包括实体名称(如人名、地名)、关系(如人物之间的关系)、事件(如交易、合并)等。通过使用机器学习算法,特别是深度学习模型,UiE能够理解并解析复杂的文本内容;// 定义服务// 请求消息// 响应消息。

2024-11-13 23:18:02 537

原创 Docker:常用指令梳理

平时工作中不常用Docker,都是到最后模型开发完毕需要打包交付的时候要用到Docker,对其具体指令已经是忘的一干二净,然后就是一顿手忙脚乱的翻找笔记,或者请教大模型,比较麻烦,今天就把所有经常会用到的指令做一个梳理,等到下次用的时候打开博客翻找即可,翻遍省事;,这里有非常丰富的Docker镜像可供使用,比如nginx服务镜像、各种版本的python镜像、Milvus镜像等等;方式一:在dockerhub中搜索想要的镜像,复制指定的docker pull命令到命令行下载;先介绍一下Docker的。

2024-11-10 22:52:37 386 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除