自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4802)
  • 资源 (4)
  • 收藏
  • 关注

原创 FLOPs计算详解-LLM训练-基础知识01-3:反向传播【损失函数对反向传播的影响】

很合理,而且——只要你做的那件事,其实是:对每一层,先有一个「上游梯度」(G = \frac{\partial L}{\partial Y}),然后用这一层的局部计算规则,算出(\displaystyle dW) 和。

2026-01-05 21:06:50 3

原创 FLOPs计算详解-LLM训练-基础知识01-2:反向传播【反向传播中的dX代表什么:传给前一层来计算dW的上游梯度】【在最后一层:dX=∂L/∂X=∂L/∂Y·∂Y/∂X=GWᵀ】

我们整理一下三个 dW 和两个 dX:$$4pt4pt4pt4pt4pt4pt{(3)}w{(2)}$$dX3y−tw3dX2y−tw3w2dX3dX2​y−tw3y−tw3w2​你可以看到,对于层ℓ\ellℓ和它前一层ℓ−1\ell-1ℓ−1dWℓ−1Xℓ−1⋅dXℓ\boxed{dWℓ−1Xℓ−1⋅dXℓ​所以d。

2026-01-05 21:04:38 4

原创 AI系统架构图

https://infrasys-ai.github.io/aisystem-docs/https://www.bilibili.com/video/BV1F8taeDEFP/?vd_source=e9d66d9407f5a18bdac65fb386a13c36

2026-01-02 22:12:30 15

原创 世界模型(World Models)进展全景调研(截至 2025-08)

A5) 2019-07(待核验) | C-SWM:Contrastive Structured World Models(Kipf et al.)A6) 2019-07(待核验) | SLAC:Stochastic Latent Actor-Critic(Lee et al.)A3) 2015-12(背景注记,待核验) | Embed to Control(E2C,Watter et al.)Nature 2020)Repro/Code:werner-duvaud/muzero-general(社区)

2025-12-30 22:34:59 85

原创 视触觉模型中的循环一致性:概念、动机、框架与前沿综述

版本,我也可以直接给你一份可粘贴的完整稿。

2025-12-26 20:47:59 27

原创 “模型权重参数”、“算子”、PyTorch权重、ONNX、ONNXRuntime、Opset、rdk、rknn、TensorRT的关系

ONNX 算子集的版本号,定义了可用的算子及其行为。模型参数 ≠ 算子参数是数据,存储在权重文件中算子是操作,定义在模型代码中PyTorch → ONNX 转换算子需要映射到 ONNX 算子集Opset 版本决定可用算子参数直接复制,格式转换Opset 版本选择根据部署环境选择平衡兼容性和性能Opset 11 兼容性最好,Opset 17 功能最全ONNXRuntime 推理需要支持模型中的所有算子不同后端支持不同提前验证兼容性。

2025-12-25 19:47:15 26

原创 PyTorch模型导出为ONNX格式时的算子替换:融合算子⮕基础算子【ATen 的算子注册机制】

PyTorch 算子ATen 算子:底层 C++ 实现的原子操作(如aten::add复合算子:由多个 ATen 算子组成(如Python 函数:纯 Python 实现的操作ONNX 算子ONNX Opset 11 包含的算子(部分):├─ onnx::MatMul (矩阵乘法)├─ onnx::Add (加法)├─ onnx::Mul (乘法)├─ onnx::Transpose (转置)├─ onnx::Reshape (重塑)└─ ... (约 150+ 个算子)

2025-12-25 19:41:55 39

原创 LLM解码:Query、KV Cache【Query:当前时间步输入给模型的token隐向量(在解码起点是prompt的最后一个token的隐向量,此后是上一时间步刚生成的token_id的隐向量)】

在任意一层 self-attention、任意时间步tttQuery:当前 token 的qtq_tqt​,用于“问”历史 token 哪些信息重要qtxtWQq_t=x_tW_Qqt​xt​WQ​KV Cache:到目前为止所有已出现 token 的kivi∗i≤t−1ki​vi​∗i≤t−1(或≤t\le t≤t,取决于你在计算前还是计算后更新),用于“被检索的记忆库”K∗cachek1⋯。

2025-12-24 22:31:40 17

原创 Attention Sink

大模型与人一样, 都存在幻觉与错漏,请审慎对待大模型的回答!这篇论文《When Attention Sink Emerges in Language Models: An Empirical View》[2025-03] [ICLR 2025] 通过大量的实证研究,深入探讨了自回归语言模型中普遍存在的“注意力沉降”(Attention Sink)现象,即模型倾向于将大量注意力分配给第一个token,无论其语义重要性如何。文章的核心贡献在于系统性地回答了注意力沉降是何时(when)以及为何(why)

2025-12-24 21:42:02 18

原创 TensorRT推理:能在RTX5080的服务器中将onnx转为tensorrt的engine格式后再将其放入orin中运行吗

直接在 RTX 5080 上生成 engine 再拿去 Jetson Orin 跑:基本不行,也不被官方推荐。只在服务器上训练和导出 ONNX;在 Orin 上用 TensorRT 从 ONNX 重新构建 engine,然后把构建好的 engine 缓存下来重复使用。如果你愿意,我可以帮你把当前的改成一份更适合 Orin 的版本(包含显存友好的一些设置和 INT8/FP16 配置),你直接复制过去就能用。

2025-12-10 22:05:28 46

原创 FLOPs计算详解-LLM训练-基础知识01-1:反向传播【dW=∂L/∂W:当前层的权重参数梯度;dX:传给前一层算dW的上游梯度】【在最后一层:dX=∂L/∂X=∂L/∂Y·∂Y/∂X=GWᵀ】

X当前层的输入矩阵:每一行是一条样本里的一个“位置”的向量。W当前层的权重矩阵(要学习的参数),比如注意力里的 Q/K/V/O 权重、FFN 的 W1/W2/W3 等。Y = XW当前层的输出矩阵。会被送给激活函数 / 下一层 / loss 计算等。L是一个标量,表示模型整体表现好不好(越小越好)。一般是所有样本的 loss 之和或平均,比如交叉熵。G = ∂L/∂Y上游梯度:告诉你“如果 Y 的某个元素变大一点,L 会变大还是变小,以及大小是多少”。

2025-12-07 02:45:20 49

原创 FLOPs计算详解-VLM训练01:Vision+Projector+LLM【连续编码+Full-FT:6SN_vis+6SN_pro+6(S+T)N_llm】【Lora:2/3 Full-FT】

Vision encoder 把图像变成视觉特征(S 个向量,连续或离散);Projector 把视觉特征送入 LLM 空间;LLM 对视觉 + 文本 token 序列做语言建模。连续型(vision 也训):\approx离散型 + 离线 tokenizer:去掉 6BSN_vis,那部分 FLOPs 变为 0(训练时只读 code)。对同一条图文对(同样 S,T),Vision/Projector/LLM blocks 的 FLOPs 几乎完全相同;

2025-12-06 22:20:53 44

原创 FLOPs计算详解-LLM训练03:Lora/全参训练FLOPs≈(2/3+LoRA参数量/原参数量​)【Lora显存占用=权重参数+激活】【激活=btz×seq_len×n_layer×dim】

完整的 LLaMA-2 FLOPs 计算笔记:通用符号:先把最关键的结论用一句人话说出来,然后再一点点推:你提的“能不能不算原始权重的 dX,只算 LoRA 分支的 dW/dX”理论上可以做成一种近似算法,那样 FLOPs 会更省,但那就不是标准 LoRA 的“正确反向”了。目前 peft 并没有这么做。记号和背景(先统一语言)我们讨论的是一层线性变换,放在 Transformer 里的某个位置,比如 attention 的 Q/K/V 投影或者 FFN 的 W1/W2/W3。BBB:batch size,

2025-12-06 22:10:03 35

原创 FLOPs计算详解-LLM训练-基础知识02:FLOPs、显存、上游梯度矩阵G、激活 activations、gradient checkpointing

GGG激活(activations)就是网络在前向传播过程中,每一层算出的“中间结果”。比如每层的隐藏向量、每个非线性层的输出等等。

2025-12-06 18:27:21 39

原创 FLOPs计算详解-LLM训练02:冻结参数(硬冻结、软冻结)对FLOPs的影响

在同一条 pretrain 样本(相同 token 序列长度 T)如果是“硬冻结”(在中间层detach,下半层仅做前向,不参与反向):Chalf≈23CfullChalf​≈32​Cfull​→节省约 33% 的训练算力(主要体现在底部 L/2 层没有 backward)。如果只是“软冻结”(参数不求梯度,但梯度仍穿过这些层):Chalf≈56CfullChalf​≈65​Cfull​→只节省约 17% 的算力,因为仅去掉了dW。

2025-12-06 17:28:41 29

原创 FLOPs计算详解-LLM训练01:【前向(2N)、反向(4N)、adamW(可忽略)】【全参训练:Pretrain、SFT的FLOPs的对比(FLOPs无差别,区别在于反向传播时的显存占用不同)】

好,我们来把这几轮你问过的点一次性“收束”成一份2Tdin​dout​Tdmodel​Ldff​BCfwd​≈2NDCtrain​≈6ND。

2025-12-06 13:22:21 37

原创 jetson orin nx super非桌面版 设置静态 IP 为 192.168.1.7 的方法

你这台 Jetson 的/etc里看起来netplan,但有,再结合你前面的ip a,可以确定这机子主要是靠管网的。好消息是:你现在wlP1p1s0,我们只需要把它从 “DHCP 自动获取” 改成 “手动固定 192.168.1.7”,以后重启也一直是这个 IP。下面给你一套。

2025-11-22 11:12:24 413

原创 DINOv3 元数据生成详解

元数据(Metadata)是描述数据集的预处理索引文件,用于加速训练时的数据加载。传统加载# 将整个文件加载到内存data = np.load('entries-TRAIN.npy') # 占用 ~50 MB 内存内存映射# 不占用内存,按需加载data = np.load('entries-TRAIN.npy', mmap_mode='r') # 占用 ~0 MB 内存。

2025-11-22 10:44:08 859

原创 ImageNet-1k数据集

AlexNet(2012)在 ImageNet 竞赛上实现了巨大突破,直接把 deep learning 推向计算机视觉的中心舞台,“ImageNet moment”。许多模型(ResNet、DenseNet、MobileNet、ViT 等)都先在 ImageNet-1k 上预训练,再迁移到下游任务(检测、分割等)。“在 ImageNet 上预训练”、“ImageNet top-1 acc”、“ResNet-50 在 ImageNet 上 76% top-1”

2025-11-21 20:53:46 984

原创 2022-2025视觉编码器范式:离散型与连续型进展深度调研

多模态时代背景: 自2022年底ChatGPT掀起新一轮AI热潮以来,视觉-语言模型(VLM)和多模态大模型(MLLM)成为研究前沿,在图文对答、视觉推理等任务上取得显著进展[1]。这波进展源于Transformer架构跨模态的成功:Vision Transformer (ViT)将NLP中序列输入+Transformer编码器范式引入视觉领域,统一了CV与NLP的处理方式[2]。随后OpenAI的CLIP等跨模态预训练模型进一步打通图像与语言表征鸿沟,奠定了现代多模态模型架构基础[2]。然而,最新研究表明

2025-11-21 20:51:18 608

原创 2022–2025年中国AI公司语音编码器技术进展调研报告

只需几秒参考录音,它就能产生与之音色相同的新句子语音,并允许用户用指令改变音色属性,如要求生成“

2025-11-21 20:49:38 239

原创 2022–2025年语音领域离散型与连续型编码器的研究进展

总结近年发展的趋势,并讨论未来可能的研究方向,例如离散与连续表征的融合等。接下来,各章节将详细阐述上述内容,并在末尾附上一份表格,列出调研中涉及的主要论文及其编码类型、方法特点和适用任务。

2025-11-21 20:48:55 90

原创 2022–2025年语音领域离散型与连续型编码器的研究进展

总结近年发展的趋势,并讨论未来可能的研究方向,例如离散与连续表征的融合等。接下来,各章节将详细阐述上述内容,并在末尾附上一份表格,列出调研中涉及的主要论文及其编码类型、方法特点和适用任务。

2025-11-21 20:46:53 68

原创 视觉编码器在多模态AI时代的演进:2023年至2025年离散型与连续型范式的深度分析

此外,研究还表明,视频生成模型的骨干(如世界模型)可以作为可迁移的编码器,用于增强下游感知任务,这进一步拓宽了连续编码器的应用范围 [16]。尽管技术飞速发展,最新的研究表明,在处理涉及视觉证据的推理任务时,VLMs的回答正确性与图像中可用的视觉证据之间存在一个“持续且令人费解的差距” [1]。在潜空间扩散模型(LDM)的背景下,连续型变分自编码器(VAE)是至关重要的组件,用于将高分辨率原始视觉数据压缩到一个紧凑的连续潜空间,从而大幅降低后续扩散模型训练的计算复杂度 [4]。是提升性能的关键路径。

2025-11-20 21:35:45 138

原创 视觉编码器01:离散型编码器 & 连续型编码器论文总览

下面为你整理。我将按类别、时间线与代表方法进行结构化整理,覆盖从基础工作到 2024–2025 最前沿成果。你可直接用于调研、写综述或制作 PPT。

2025-11-20 21:19:52 55

原创 音频编码器02:连续性

2025-11-20 20:55:49 30

原创 音频编码器01:离散型(从零训练语音Tokenizer)

我分别给你讲怎么训,并附带能直接抄的开源仓库。

2025-11-19 22:50:09 58

原创 从零训练Qwen3-VL

如果你未来想做的是「在公开权重上继续做大规模多模态 pretrain(比如换数据、换目标函数)」而不是在完全随机初始化上起步,这两类代码会比 Open-Qwen2VL 更直接。参考 Qwen2-VL / Qwen2.5-VL 披露的流程,可以大致推测 Qwen3-VL 也是类似的三阶段:(直接在学术算力(8×A100-40G)上从零预训练了一个 2B 参数的多模态 Qwen2-VL 风格模型:(的配置和训练脚本,理解它是如何把「任意 ViT + 任意 LLM + 任意图文数据」拼在一起的。

2025-11-19 21:12:12 198

原创 机器人开源项目分类与rsl-rl学习指南 - 教程

作为具身智能的学习者,除了学习机器人末端抓取以外,其实机器人控制和运动其实是挺关键的。而这方面网上的资料其实是比较零散的。这里我们来收集基于《具身智能和人形机器人项目汇总》这篇的基础上继续拓展,并给出学习路线,同时给出rsl_rl的学习内容。

2025-11-17 22:03:18 59

原创 【IsaacGym速通2】四足机器人RL demo unitree_rl_gym 代码框架分析

奖励函数: reward_names = ['action_rate', 'ang_vel_xy', 'collision', 'dof_acc', 'dof_pos_limits', 'feet_air_time', 'lin_vel_z', 'torques', 'tracking_ang_vel', 'tracking_lin_vel']- 概率比 r(θ) = exp(log_prob_new - log_prob_old)- Critic 的目标是让 V(s_t) 逼近这个目标。

2025-11-17 21:59:55 78

原创 ubuntu22.04设置目录权限【设置 store_wyr 目录只能wyr访问】【设置/media/wyr/my_data可以让lixm用户查看】

通过使用setfacl命令,你可以确保lixm用户有权限查看目录 /media/wyr/my_data,而不需要改变目录的所有者。

2025-11-17 20:53:56 173

原创 机器人模型格式

https://www.bilibili.com/video/BV1H61TBMEfy?vd_source=e9d66d9407f5a18bdac65fb386a13c36&spm_id_from=333.788.player.switch

2025-11-16 22:47:35 59

原创 目标检测-20200526:DETR (DEtection TRansformer) 详细分析

DETR (DEtection TRansformer) 是Facebook AI Research在2020年提出的一种端到端的目标检测模型。它革命性地将目标检测问题转化为集合预测问题,摆脱了传统方法中需要的锚框(anchor)、非极大值抑制(NMS)等手工设计的组件。DETR将目标检测问题重新定义为集合预测问题传统方法: 图像 → 特征 → 密集预测 → NMS → 最终检测结果DETR方法: 图像 → 特征 → Transformer → 直接预测固定数量的目标组件公式作用自注意力。

2025-11-13 23:24:35 870

原创 RL-算法-20250815:CHORD中的CHORD-φ【把SFT(离策略、基于专家示范)与RL(在策略、基于回报)真正融合,把 SFT 视作在 RL 过程中的辅助项,不是独立阶段】

相对“原始 SFT=平均交叉熵”,

2025-11-11 01:15:30 1082

原创 数字图像处理-1-50

在数字图像处理领域,本书作为主要教材已有40多年。第四版是作者在前三版的基础上修订而成的,是前三版的发展与延续。除保留前几版的大部分内容外,根据读者的反馈,作者对本书进行了全面修订,融入了近年来数字图像处理领域的重要进展,增加了几百幅新图像、几十个新图表和上百道新习题。全书共12章,即绪论、数字图像基础、灰度变换与空间滤波、频率域滤波、图像复原与重建、小波变换和其他图像变换、彩色图像处理、图像压缩和水印、形态学图像处理、图像分割、特征提取、图像模式分类。

2025-11-08 15:49:14 1128

原创 使用Ollama运行非Ollama官方仓库(自定义)的大模型

https://www.bilibili.com/video/BV1WkbjenEF5/?spm_id_from=333.337.search-card.all.click&vd_source=e9d66d9407f5a18bdac65fb386a13c36

2025-11-05 23:12:35 88

原创 VLLM 与 Ollama:如何选择合适的轻量级 LLM 框架?

VLLM(超大型语言模型)是SKYPILOT开发的推理优化框架,主要用于提升大语言模型在GPU上的运行效率。快速令牌生成:采用连续批处理技术,让令牌生成速度大幅提升。高效内存利用:借助PagedAttention技术,在处理大上下文窗口时,能有效控制GPU内存消耗。无缝集成:与PyTorch、TensorFlow等主流深度学习平台兼容,可轻松融入AI工作流程。VLLM深受AI研究人员和需要大规模高性能推理的企业青睐。Ollama是一个本地大语言模型运行时环境,能简化开源AI模型的部署和使用流程。

2025-11-05 21:57:29 73

原创 Ollama:开源的 LLM(大型语言模型)服务工具,用于简化在本地运行大语言模型

Ollama是一个开源的人工智能(AI)和机器学习(ML)工具平台,特别设计用于简化大型语言模型(LLM)的部署和使用流程。用户可以通过Ollama在本地环境中便捷地运行各种大型语言模型,比如Llama 2和其他开源模型。易用性:提供了类似于OpenAI API的简单接口,用户可以快速上手并调用模型进行内容生成,同时也包含一个类似ChatGPT的聊天界面,可以直接与模型进行交互。跨平台支持:支持macOS、Linux 和 Windows 操作系统,让用户能够在不同平台上本地运行大型语言模型。

2025-11-05 21:54:18 56

原创 llama.cpp:一个使用C++/C 进行llm推理的软件框架(同比类似vllm、TensorRL-LLM等)。但不要被其名字误导,该框架并不是只支持llama模型,其是一个支持多种llm模型,多种

llama.cpp是由个人创办的一个使用C++/C 进行llm推理的软件框架(同比类似vllm等)。但不要被其名字误导,该框架并不是只支持llama模型,其是一个支持多种llm模型,多种硬件后端的优秀框架。

2025-11-05 21:52:38 30

原创 GGUF:一种大模型文件格式(专为 llama.cpp 设计)【相较于Hugging Face和torch的bin文件,GGUF采用了紧凑的二进制编码格式,提供了更高效的数据存储和访问方式】

GGUF()是由(著名开源项目llama.cpp的创始人)定义发布的一种大模型文件格式。GGUF 继承自其前身 GGML,但 GGML 格式有一些缺点,已被完全弃用并被 GGUF 格式取代。GGUF 是一种二进制格式文件的规范,原始的大模型预训练结果经过转换后变成 GGUF 格式可以更快地被载入使用,也会消耗更低的资源。原因在于 GGUF 采用了多种技术来保存大模型预训练结果,包括采用紧凑的二进制编码格式、优化的数据结构、内存映射等。

2025-11-05 21:47:31 58

特殊字符 VLA扩散模型完整实现 - Complete VLA Diffusion Model Implementation

vla-config.py

2025-10-02

英文单词拼写混淆集:spell-errors.txt

英文单词拼写混淆集:spell-errors.txt

2021-04-05

《Approaching (Almost) Any Machine Learning Problem》

《Approaching (Almost) Any Machine Learning Problem》

2023-09-13

中文小说短句序列文本复述数据集

中文小说短句序列文本复述数据集

2023-07-29

时间序列预测-第六届全国工业互联网数据创新应用大赛:工业生产反应装置的建模预测

第六届全国工业互联网数据创新应用大赛:工业生产反应装置的建模预测

2023-02-26

stop-words.txt

stop_words.txt

2022-11-17

clustering-test-data

文本聚类测试数据

2022-11-17

strawberry-perl-5.10.1.0.msi

strawberry-perl-5.10.1.0.msi

2022-02-19

strawberry-perl-5.10.1.0.msi

strawberry-perl-5.10.1.0.msi

2022-02-19

带有词频的词典库:vocab.txt

带有词频的词典库:vocab.txt

2021-04-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除