u013250861-CSDN博客

原创 FLOPs计算详解-LLM训练-基础知识01-3：反向传播【损失函数对反向传播的影响】

很合理，而且——只要你做的那件事，其实是：对每一层，先有一个「上游梯度」(G = \frac{\partial L}{\partial Y})，然后用这一层的局部计算规则，算出(\displaystyle dW) 和。

2026-01-05 21:06:50 3

原创 FLOPs计算详解-LLM训练-基础知识01-2：反向传播【反向传播中的dX代表什么：传给前一层来计算dW的上游梯度】【在最后一层：dX=∂L/∂X=∂L/∂Y·∂Y/∂X=GWᵀ】

我们整理一下三个 dW 和两个 dX：$$4pt4pt4pt4pt4pt4pt{(3)}w{(2)}$$dX3y−tw3dX2y−tw3w2dX3dX2y−tw3y−tw3w2你可以看到，对于层ℓ\ellℓ和它前一层ℓ−1\ell-1ℓ−1dWℓ−1Xℓ−1⋅dXℓ\boxed{dWℓ−1Xℓ−1⋅dXℓ所以d。

2026-01-05 21:04:38 4

原创 AI系统架构图

https://infrasys-ai.github.io/aisystem-docs/https://www.bilibili.com/video/BV1F8taeDEFP/?vd_source=e9d66d9407f5a18bdac65fb386a13c36

2026-01-02 22:12:30 15

原创世界模型（World Models）进展全景调研（截至 2025-08）

A5) 2019-07（待核验） | C-SWM：Contrastive Structured World Models（Kipf et al.）A6) 2019-07（待核验） | SLAC：Stochastic Latent Actor-Critic（Lee et al.）A3) 2015-12（背景注记，待核验） | Embed to Control（E2C，Watter et al.）Nature 2020）Repro/Code：werner-duvaud/muzero-general（社区）

2025-12-30 22:34:59 85

原创视触觉模型中的循环一致性：概念、动机、框架与前沿综述

版本，我也可以直接给你一份可粘贴的完整稿。

2025-12-26 20:47:59 27

原创 “模型权重参数”、“算子”、PyTorch权重、ONNX、ONNXRuntime、Opset、rdk、rknn、TensorRT的关系

ONNX 算子集的版本号，定义了可用的算子及其行为。模型参数 ≠ 算子参数是数据，存储在权重文件中算子是操作，定义在模型代码中PyTorch → ONNX 转换算子需要映射到 ONNX 算子集Opset 版本决定可用算子参数直接复制，格式转换Opset 版本选择根据部署环境选择平衡兼容性和性能Opset 11 兼容性最好，Opset 17 功能最全ONNXRuntime 推理需要支持模型中的所有算子不同后端支持不同提前验证兼容性。

2025-12-25 19:47:15 26

原创 PyTorch模型导出为ONNX格式时的算子替换：融合算子⮕基础算子【ATen 的算子注册机制】

PyTorch 算子ATen 算子：底层 C++ 实现的原子操作（如aten::add复合算子：由多个 ATen 算子组成（如Python 函数：纯 Python 实现的操作ONNX 算子ONNX Opset 11 包含的算子（部分）：├─ onnx::MatMul (矩阵乘法)├─ onnx::Add (加法)├─ onnx::Mul (乘法)├─ onnx::Transpose (转置)├─ onnx::Reshape (重塑)└─ ... (约 150+ 个算子)

2025-12-25 19:41:55 39

原创 LLM解码：Query、KV Cache【Query：当前时间步输入给模型的token隐向量（在解码起点是prompt的最后一个token的隐向量，此后是上一时间步刚生成的token_id的隐向量）】

在任意一层 self-attention、任意时间步tttQuery：当前 token 的qtq_tqt，用于“问”历史 token 哪些信息重要qtxtWQq_t=x_tW_QqtxtWQKV Cache：到目前为止所有已出现 token 的kivi∗i≤t−1kivi∗i≤t−1（或≤t\le t≤t，取决于你在计算前还是计算后更新），用于“被检索的记忆库”K∗cachek1⋯。

2025-12-24 22:31:40 17

原创 Attention Sink

大模型与人一样, 都存在幻觉与错漏，请审慎对待大模型的回答!这篇论文《When Attention Sink Emerges in Language Models: An Empirical View》[2025-03] [ICLR 2025] 通过大量的实证研究，深入探讨了自回归语言模型中普遍存在的“注意力沉降”（Attention Sink）现象，即模型倾向于将大量注意力分配给第一个token，无论其语义重要性如何。文章的核心贡献在于系统性地回答了注意力沉降是何时（when）以及为何（why）

2025-12-24 21:42:02 18

原创 TensorRT推理：能在RTX5080的服务器中将onnx转为tensorrt的engine格式后再将其放入orin中运行吗

直接在 RTX 5080 上生成 engine 再拿去 Jetson Orin 跑：基本不行，也不被官方推荐。只在服务器上训练和导出 ONNX；在 Orin 上用 TensorRT 从 ONNX 重新构建 engine，然后把构建好的 engine 缓存下来重复使用。如果你愿意，我可以帮你把当前的改成一份更适合 Orin 的版本（包含显存友好的一些设置和 INT8/FP16 配置），你直接复制过去就能用。

2025-12-10 22:05:28 46

原创 FLOPs计算详解-LLM训练-基础知识01-1：反向传播【dW=∂L/∂W：当前层的权重参数梯度；dX：传给前一层算dW的上游梯度】【在最后一层：dX=∂L/∂X=∂L/∂Y·∂Y/∂X=GWᵀ】

X当前层的输入矩阵：每一行是一条样本里的一个“位置”的向量。W当前层的权重矩阵（要学习的参数），比如注意力里的 Q/K/V/O 权重、FFN 的 W1/W2/W3 等。Y = XW当前层的输出矩阵。会被送给激活函数 / 下一层 / loss 计算等。L是一个标量，表示模型整体表现好不好（越小越好）。一般是所有样本的 loss 之和或平均，比如交叉熵。G = ∂L/∂Y上游梯度：告诉你“如果 Y 的某个元素变大一点，L 会变大还是变小，以及大小是多少”。

2025-12-07 02:45:20 49

原创 FLOPs计算详解-VLM训练01：Vision+Projector+LLM【连续编码+Full-FT：6SN_vis+6SN_pro+6(S+T)N_llm】【Lora：2/3 Full-FT】

Vision encoder 把图像变成视觉特征（S 个向量，连续或离散）；Projector 把视觉特征送入 LLM 空间；LLM 对视觉 + 文本 token 序列做语言建模。连续型（vision 也训）：\approx离散型 + 离线 tokenizer：去掉 6BSN_vis，那部分 FLOPs 变为 0（训练时只读 code）。对同一条图文对（同样 S,T），Vision/Projector/LLM blocks 的 FLOPs 几乎完全相同；

2025-12-06 22:20:53 44

原创 FLOPs计算详解-LLM训练03：Lora/全参训练FLOPs≈(2/3+LoRA参数量/原参数量)【Lora显存占用=权重参数+激活】【激活=btz×seq_len×n_layer×dim】

完整的 LLaMA-2 FLOPs 计算笔记：通用符号：先把最关键的结论用一句人话说出来，然后再一点点推：你提的“能不能不算原始权重的 dX，只算 LoRA 分支的 dW/dX”理论上可以做成一种近似算法，那样 FLOPs 会更省，但那就不是标准 LoRA 的“正确反向”了。目前 peft 并没有这么做。记号和背景（先统一语言）我们讨论的是一层线性变换，放在 Transformer 里的某个位置，比如 attention 的 Q/K/V 投影或者 FFN 的 W1/W2/W3。BBB：batch size，

2025-12-06 22:10:03 35

原创 FLOPs计算详解-LLM训练-基础知识02：FLOPs、显存、上游梯度矩阵G、激活 activations、gradient checkpointing

GGG激活（activations）就是网络在前向传播过程中，每一层算出的“中间结果”。比如每层的隐藏向量、每个非线性层的输出等等。

2025-12-06 18:27:21 39

原创 FLOPs计算详解-LLM训练02：冻结参数（硬冻结、软冻结）对FLOPs的影响

在同一条 pretrain 样本（相同 token 序列长度 T）如果是“硬冻结”（在中间层detach，下半层仅做前向，不参与反向）：Chalf≈23CfullChalf≈32Cfull→节省约 33% 的训练算力（主要体现在底部 L/2 层没有 backward）。如果只是“软冻结”（参数不求梯度，但梯度仍穿过这些层）：Chalf≈56CfullChalf≈65Cfull→只节省约 17% 的算力，因为仅去掉了dW。

2025-12-06 17:28:41 29

原创 FLOPs计算详解-LLM训练01：【前向（2N）、反向（4N）、adamW（可忽略）】【全参训练：Pretrain、SFT的FLOPs的对比（FLOPs无差别，区别在于反向传播时的显存占用不同）】

好，我们来把这几轮你问过的点一次性“收束”成一份2TdindoutTdmodelLdffBCfwd≈2NDCtrain≈6ND。

2025-12-06 13:22:21 37

原创 jetson orin nx super非桌面版设置静态 IP 为 192.168.1.7 的方法

你这台 Jetson 的/etc里看起来netplan，但有，再结合你前面的ip a，可以确定这机子主要是靠管网的。好消息是：你现在wlP1p1s0，我们只需要把它从 “DHCP 自动获取” 改成 “手动固定 192.168.1.7”，以后重启也一直是这个 IP。下面给你一套。

2025-11-22 11:12:24 413

原创 DINOv3 元数据生成详解

元数据（Metadata）是描述数据集的预处理索引文件，用于加速训练时的数据加载。传统加载# 将整个文件加载到内存data = np.load('entries-TRAIN.npy') # 占用 ~50 MB 内存内存映射# 不占用内存，按需加载data = np.load('entries-TRAIN.npy', mmap_mode='r') # 占用 ~0 MB 内存。

2025-11-22 10:44:08 859

原创 ImageNet-1k数据集

AlexNet（2012）在 ImageNet 竞赛上实现了巨大突破，直接把 deep learning 推向计算机视觉的中心舞台，“ImageNet moment”。许多模型（ResNet、DenseNet、MobileNet、ViT 等）都先在 ImageNet-1k 上预训练，再迁移到下游任务（检测、分割等）。“在 ImageNet 上预训练”、“ImageNet top-1 acc”、“ResNet-50 在 ImageNet 上 76% top-1”

2025-11-21 20:53:46 984

原创 2022-2025视觉编码器范式：离散型与连续型进展深度调研

多模态时代背景：自2022年底ChatGPT掀起新一轮AI热潮以来，视觉-语言模型（VLM）和多模态大模型（MLLM）成为研究前沿，在图文对答、视觉推理等任务上取得显著进展[1]。这波进展源于Transformer架构跨模态的成功：Vision Transformer (ViT)将NLP中序列输入+Transformer编码器范式引入视觉领域，统一了CV与NLP的处理方式[2]。随后OpenAI的CLIP等跨模态预训练模型进一步打通图像与语言表征鸿沟，奠定了现代多模态模型架构基础[2]。然而，最新研究表明

2025-11-21 20:51:18 608

原创 2022–2025年中国AI公司语音编码器技术进展调研报告

只需几秒参考录音，它就能产生与之音色相同的新句子语音，并允许用户用指令改变音色属性，如要求生成“

2025-11-21 20:49:38 239

原创 2022–2025年语音领域离散型与连续型编码器的研究进展

总结近年发展的趋势，并讨论未来可能的研究方向，例如离散与连续表征的融合等。接下来，各章节将详细阐述上述内容，并在末尾附上一份表格，列出调研中涉及的主要论文及其编码类型、方法特点和适用任务。

2025-11-21 20:48:55 90

原创 2022–2025年语音领域离散型与连续型编码器的研究进展

总结近年发展的趋势，并讨论未来可能的研究方向，例如离散与连续表征的融合等。接下来，各章节将详细阐述上述内容，并在末尾附上一份表格，列出调研中涉及的主要论文及其编码类型、方法特点和适用任务。

2025-11-21 20:46:53 68

原创视觉编码器在多模态AI时代的演进：2023年至2025年离散型与连续型范式的深度分析

此外，研究还表明，视频生成模型的骨干（如世界模型）可以作为可迁移的编码器，用于增强下游感知任务，这进一步拓宽了连续编码器的应用范围 [16]。尽管技术飞速发展，最新的研究表明，在处理涉及视觉证据的推理任务时，VLMs的回答正确性与图像中可用的视觉证据之间存在一个“持续且令人费解的差距” [1]。在潜空间扩散模型（LDM）的背景下，连续型变分自编码器（VAE）是至关重要的组件，用于将高分辨率原始视觉数据压缩到一个紧凑的连续潜空间，从而大幅降低后续扩散模型训练的计算复杂度 [4]。是提升性能的关键路径。

2025-11-20 21:35:45 138

特殊字符 VLA扩散模型完整实现 - Complete VLA Diffusion Model Implementation

英文单词拼写混淆集：spell-errors.txt

《Approaching (Almost) Any Machine Learning Problem》

中文小说短句序列文本复述数据集

时间序列预测-第六届全国工业互联网数据创新应用大赛：工业生产反应装置的建模预测

stop-words.txt

clustering-test-data

strawberry-perl-5.10.1.0.msi

strawberry-perl-5.10.1.0.msi

带有词频的词典库：vocab.txt

空空如也