- 博客(197)
- 收藏
- 关注
原创 面试官:大模型中的幻觉本质原因是什么?如何通过训练或推理手段抑制?
面试官:你觉得大模型的幻觉(Hallucination)是怎么产生的?能不能从原理上讲讲?那我们又该如何去抑制?别小看这问题,几乎所有大模型都被幻觉困扰——从 ChatGPT 到多模态模型,没有一个能逃得了。
2025-12-04 19:29:35
811
原创 面试官:深层网络梯度消失的根本原因是什么?除了 ResNet,还有哪些架构能有效缓解?
这题是典中典。很多人听到“梯度消失”就背一句——“因为深度太深”,但要真能把原因讲透、机制解释清、改进方案说全,那就不只是“知道问题”,而是理解问题的结构本质了。
2025-12-04 19:02:36
936
原创 面试官:BatchNorm、LayerNorm、GroupNorm、InstanceNorm 有什么本质区别?
面试官:你能讲讲 BatchNorm、LayerNorm、GroupNorm、 InstanceNorm 有什么本质区别吗?很多同学肯定对这三个方法都很熟悉,但是一时间竟然不知道该怎么组织语言回答他们之间的区别,也不知道该从哪些方面进行对比,今天我们就来一次彻底拆解,不背定义、不绕术语,争取讲清楚三者的核心思想和差异本质。
2025-12-02 15:29:52
842
原创 面试官:为什么 Adam 在部分任务上会比 SGD 收敛更快,但泛化性更差?如何改进?
面试官:“你觉得 Adam 为什么比 SGD 收敛更快?那为什么 Adam 泛化性往往不如 SGD?有没有改进方法?”这问题听着简单,但要答得漂亮得兼顾数学理解 + 经验分析 + 改进思路。今天我们就系统地讲一讲这个问题,从原理到改进,把话说透。
2025-12-02 15:27:04
561
原创 面试官:模型剪枝了解吗?解释一下结构化剪枝与非结构化剪枝
面试官:“剪枝了解吗?那你能说说结构化剪枝和非结构化剪枝的区别吗?”剪枝虽然是老话题,但如果你真能讲清楚它的核心思想 + 工程取舍,那还是比较难的,所以今天我们就来彻底梳理一下这个问题。
2025-12-01 15:16:58
871
原创 面试官:模型的量化了解吗?解释一下非对称量化与对称量化
面试官:“你了解量化(Quantization)吗?能解释一下非对称量化和对称量化的区别吗?”老实说,这个问题真挺有代表性。它既考基础理解,也看你对模型部署有没有实战经验。相信很多同学如果没有实践经验,也回答不出一二,我们一起来看一看。
2025-12-01 15:15:19
716
原创 面试官:Transformer如何优化到线性级?
面试官:我们来聊聊Transformer吧,Transformer的复杂度为什么这么高?有什么办法能优化到线性级吗?面对这种原理与优化问题,其实都是有模板的,下面我们来看一看该怎么回答.
2025-11-13 23:17:19
899
原创 LongCat-Flash:美团出手,国产卡上跑出的「闪电级」大模型
最近,美团开源的 LongCat-Flash 彻底炸了 AI 圈。一方面,它用 国产算力 完成了一个 5600 亿参数的大模型训练;另一方面,它用一系列极具工程狠劲的设计,解决了很多 DeepSeek 一直头疼的系统级瓶颈。LongCat-Flash 可以说是一次真正懂大模型训练痛点的人干出来的技术工程奇迹。
2025-11-13 22:33:44
911
原创 大模型分布式训练框架对比与实践
训练大规模深度学习模型不仅依赖优化器和硬件,还需要高效的训练框架。不同框架在功能、性能和易用性上各有特点,针对 GPU/TPU、多节点分布式训练和混合精度计算有不同的支持策略。本文将以框架为维度,系统比较主流框架的特点、应用场景以及分布式训练实践。
2025-11-12 21:26:13
1269
原创 Horovod 与 NCCL 的分布式通信优化详解
在大模型训练中,通信效率直接影响训练吞吐量和扩展性。Horovod 是 Uber 开源的高性能分布式训练框架,专注于多 GPU / 多节点的梯度同步,而 NCCL(NVIDIA Collective Communications Library)提供了 GPU 之间高效的通信原语。本文将浅浅介绍一下 Horovod 与 NCCL 的通信原理、性能瓶颈以及集群部署优化技巧。
2025-11-12 21:25:02
1029
原创 Zero Redundancy Optimizer (ZeRO) 系列解析
在大模型训练中,显存瓶颈是制约模型规模的重要因素。DeepSpeed 推出的 Zero Redundancy Optimizer(ZeRO) 系列,通过将模型状态(参数、梯度、优化器状态)分布到不同 GPU 上,实现显著的显存优化。
2025-11-11 19:40:44
1280
原创 模型并行训练策略:张量并行、流水线并行与混合并行
随着模型参数量快速增长,超过单张 GPU 显存承载能力的情况越来越常见。对于超大规模模型(如百亿参数以上),仅靠数据并行已无法训练。这时,模型并行(Model Parallelism) 应运而生,它通过将模型本身拆分到多张 GPU 上进行计算,实现显存扩展和训练加速。本文将详细解析张量并行、流水线并行和混合并行的原理、实践方法以及优化策略。
2025-11-11 19:39:19
876
原创 数据并行VS模型并行VS混合并行
随着深度学习模型规模不断增大,从几亿参数到上百亿甚至千亿参数,单块GPU已经难以承载模型训练的显存和计算需求。为了突破显存限制、提升训练速度,同时应对分布式环境下的通信挑战,研究者提出了多种并行训练策略,包括数据并行,模型并行和混合并行,下面我们一起来看一看。
2025-11-10 19:26:25
525
原创 数据并行训练实践:PyTorch&TensorFlow
在训练中等规模到大型深度学习模型时,单块GPU可能无法充分利用计算资源或处理足够的数据批次。数据并行(Data Parallel, DP)是一种简单且高效的并行训练策略,通过在多张GPU上复制模型副本并分批处理数据,实现训练加速和性能优化。本文将结合 PyTorch DDP 和 TensorFlow MirroredStrategy,分享数据并行训练的实践经验、并行原理和优化技巧。
2025-11-10 19:24:11
719
原创 分布式训练原理与基础架构解析
随着大模型规模不断增长,单卡训练已经无法满足计算和存储需求。分布式训练成为模型训练的必备手段,从底层硬件基础架构到梯度同步与优化器机制,每一环节都直接影响训练效率和收敛效果。
2025-09-28 17:55:09
624
原创 数据并行VS模型并行VS混合并行
随着深度学习模型规模不断增大,从几亿参数到上百亿甚至千亿参数,单块GPU已经难以承载模型训练的显存和计算需求。为了突破显存限制、提升训练速度,同时应对分布式环境下的通信挑战,研究者提出了多种并行训练策略,包括数据并行,模型并行和混合并行,下面我们一起来看一看。
2025-09-26 19:16:58
1028
原创 AI模型部署:从容器化到云原生架构
训练好的AI模型如果不能快速、稳定、弹性地部署到生产环境,那么再高的准确率也只是“实验室成果”。在实际工程中,我们需要应对多环境兼容、弹性伸缩、版本迭代、资源调度与监控等挑战。容器化(Docker)与云原生(Kubernetes)正好为AI部署提供了统一打包、跨环境运行与自动扩缩容的能力。
2025-09-25 23:14:47
1488
原创 一文搞懂量化、剪枝和知识蒸馏都是什么?
随着深度学习模型的参数量从百万级跃升至千亿级,部署和推理的计算、存储、带宽压力急剧增加。尤其在边缘设备和低延迟应用中,庞大的模型不仅占用显存,还拖慢推理速度。
2025-09-25 23:13:45
1116
原创 AI训练中的混合精度计算技术详解
在大模型训练时代,模型参数规模动辄数百亿甚至上万亿,传统的 FP32 单精度训练 已经无法满足显存和速度的需求。混合精度(Mixed Precision Training)技术通过在保持模型精度的同时使用更低位数的浮点格式(如 FP16、BFLOAT16),有效减少显存占用、提升吞吐量,已经成为深度学习训练的“标配”。
2025-09-24 15:50:43
913
原创 AI训练要的数据这么多,怎么存?
在大模型时代,AI 的训练与推理已经不再是单纯的算力问题。随着模型参数规模进入百亿级、数据量级扩展到 TB~PB,数据管线与存储架构往往成为影响训练速度的决定性因素。算力再强,如果数据加载跟不上,也会出现 GPU 空闲等待 I/O 的情况,训练效率大打折扣。
2025-09-24 15:49:42
1220
原创 AI训练与推理的硬件需求有什么区别?
在人工智能项目的全生命周期中,训练(Training) 和 推理(Inference) 是两个至关重要的阶段。虽然它们都需要算力支持,但在计算资源、内存容量、存储系统和通信带宽等方面的需求差异很大。
2025-09-23 15:56:24
952
原创 GPU与TPU:AI计算硬件的核心对比
在人工智能,尤其是深度学习和大模型的浪潮中,算力已成为推动技术进步的核心引擎。GPU(图形处理器)和TPU(张量处理器)是两种主流的AI计算硬件,它们既有相似之处——都擅长并行浮点运算,又有显著的架构与定位差异。本文将从架构原理、适用场景和性能差异三个维度,深入剖析GPU与TPU。
2025-09-23 15:55:32
1427
原创 AI Infra-为什么AI需要专属的基础设施?
近几年,人工智能尤其是大模型的爆发式发展,让算力、存储、网络等基础资源的需求呈现指数级增长。传统的IT基础设施虽然支撑了互联网时代的业务运行,但面对AI训练和推理的超高计算密度、海量数据吞吐和低延迟需求时,显得力不从心。为了让AI技术真正落地,我们需要针对AI特性量身定制的AI基础设施(AI Infrastructure)。
2025-09-22 11:25:08
1258
原创 MCP vs A2A:理解代理系统的两类关键协议
在智能代理开发领域,随着多智能体系统和工具集成的普及,我们经常会遇到两个概念:模型上下文协议(MCP)和Agent2Agent 协议(A2A)。它们都是为了让智能体更好地互相协作或与外部资源交互而设计的,那他们到底有什么区别,又各自有什么用呢?
2025-09-22 11:23:49
1118
原创 大模型为什么有幻觉?
除了数据,还和大模型的训练方式有关系,通俗点说,大模型出现幻觉是因为大语言模型的本质是预测下一个单词,哪个词的概率最大他就选哪个,他只管预测,不管对不对,他也不会验证,他觉得他说的就是对的。所以后面才会出现一系列的方法,比如RAG,RLHF等方法去减轻大模型的幻觉问题。大模型的幻觉肯定和数据有关系,训练数据如果有偏差,那么输出的结果大概率也正确不了,所以模型的训练效果很大程度上取决于数据的质量。
2025-09-21 21:53:20
112
原创 如今的大模型浪潮是否是一场泡沫?
全球大模型的浪潮起源于OpenAI的ChatGPT,中国的大模型浪潮起源于DeepSeek的火爆,各大厂商也在多年前下场布局AI,但是AI真的有那么神吗?在Meta的LLaMa和DeepSeek开源之前,大模型就是一个黑盒,我们给他输入,他们会给我们回答,我们一看,挺有道理,以后遇到不会的就问大模型,即使大模型说错了也信,我们并不知道大模型怎么工作的。在大模型相继开源之后,我们逐渐理解了大模型的真正机理,大模型的模型架构,数据处理,训练流程,推理流程,大模型的可解释性也越来越强。
2025-09-21 21:51:31
203
原创 Agent2Agent 协议:让智能体真正学会“对话”
在过去几年,人工智能的发展让单个智能体已经能完成越来越复杂的任务,比如写文章、做数据分析、甚至协助编程。但当任务变得更复杂、需要多个智能体分工协作时,我们就会遇到一个问题:不同智能体之间怎么有效沟通?如果每个智能体各说各话,就像一个人说中文、一个说英文,合作就会非常困难。这时候,一套统一的通信标准就显得至关重要——这就是今天要介绍的 Agent2Agent 协议。
2025-09-19 16:50:15
671
原创 Function Calling:让语言模型调用外部功能
在现代 AI 系统中,语言模型不仅可以生成文本,还可以直接调用外部功能或服务。这种机制被称为 Function Calling。Function Calling 的原理、工作流程是什么?与 MCP(模型上下文协议)的区别又是什么呢?
2025-09-19 16:49:06
1197
原创 场景驱动的大模型评估:行业落地的挑战与实践
在大模型快速演进的浪潮中,模型参数量、推理速度、通用能力已经不再是唯一的竞争维度。真正决定大模型商业价值的,是它能否在具体行业场景中稳定、高效、安全地落地运行。相比通用基准测试,场景驱动的评估方法更能反映模型在真实业务中的表现,也更容易暴露模型在生产环境下的不足。本文将从金融、医疗、政务、教育等典型行业出发,探讨场景驱动的大模型评估挑战与实践方法。
2025-09-18 14:12:01
903
原创 大模型评估方法论:指标拆解与技术路径
在大模型的世界里,能力强≠真正好用。很多时候,模型在宣传视频里表现得无所不能,但一旦落地到实际业务场景,问题就会暴露出来。这时候,一个科学、系统、可复现的评估方法,就成了区分“看起来很强”和“真的能用”的关键。本文将带你走进大模型评估的“方法论核心”,从指标拆解到技术路径,全面梳理业界常用的评估框架,帮你建立一套可落地、可复用的评估体系。
2025-09-18 14:11:04
769
原创 大模型的好坏怎么进行评估?
过去几年,大语言模型(LLM)像火箭一样发展,从几亿参数到千亿参数,从只能写几句短文到能写论文、写代码、画插图、做科研。它们的能力令人惊叹,但也让一个新问题浮出水面——它到底靠不靠谱?在现实业务中,大模型的作用远不止“陪聊”,它可能需要回答医学问题、帮你审核合同、生成技术文档,甚至直接参与金融决策。如果一个模型没有经过严谨的评估就直接投入使用,轻则效果不佳,重则带来错误结论、资源浪费甚至法律风险。因此,大模型评估就像产品上线前的质检环节,决定了它能否安全、稳定、有效地服务用户。
2025-09-17 20:49:29
1044
原创 Serverless 架构下的大模型框架落地实践
随着大模型在企业场景中广泛应用,Serverless 架构因其按需弹性伸缩、免运维管理和成本优化的特点,成为大模型落地的理想选择。在 Serverless 环境中,可以实现大模型推理的高并发处理,同时降低资源浪费和运维成本。本篇文章将系统介绍Serverless 架构与大模型框架的结合方式、高性能推理与动态扩缩容实践和多模型协作与知识增强生成(RAG)在 Serverless 下的应用。
2025-09-17 20:47:19
605
原创 大模型框架性能优化策略:延迟、吞吐量与成本权衡
在大模型应用和推理系统中,性能优化是关键环节。无论是 LangChain、vLLM 还是 RAG 系统,架构设计、推理策略和资源调度都会直接影响延迟、吞吐量和成本。
2025-09-16 14:56:15
950
原创 认识 Unsloth 框架:大模型高效微调的利器
在大语言模型(LLM)应用快速发展的背景下,如何高效地在消费级硬件上进行模型的微调与部署,成为了开发者们普遍关注的问题。Unsloth 框架正是在这样的需求下应运而生,它提供了一种轻量级、易用且高效的方式来进行 LLaMA、Mistral 等模型的微调,大幅度降低了资源门槛。 前面我们介绍了LangChain, Vllm,TRL, PEFT, LLaMA Factory,今天我们一起来看一下Unsloth。
2025-09-15 22:38:08
945
原创 大模型微调框架之LLaMA Factory
近年来,大语言模型(LLM)在自然语言处理(NLP)领域取得了突破性进展。然而,直接训练或微调这些模型往往需要昂贵的计算资源和复杂的工程实现,这使得许多研究者和开发者在落地应用时面临困难。为此,开源社区涌现出了一系列面向大模型的高效训练与推理框架,前面我们介绍了LangChain,vLLM,PEFT,TRL,今天我们来看一下 LLaMA Factory 。
2025-09-15 22:37:17
966
原创 大模型框架之PEFT
在大模型浪潮下,如何让模型在 低成本、低门槛 的条件下完成特定任务的适配,是开发者和研究者共同关注的问题。Hugging Face 推出的 PEFT(Parameter-Efficient Fine-Tuning)框架,为这一挑战提供了系统化的解决方案。这篇文章就是带大家看一下PEFT框架到底是何方神圣。
2025-09-13 23:31:03
905
原创 大模型微调框架之TRL
近年来,大语言模型(LLMs)的快速发展推动了下游应用的繁荣,但如何高效地对这些模型进行对齐和微调,依然是研究与应用的热点。Hugging Face 开源的 TRL(Transformer Reinforcement Learning) 框架,提供了基于强化学习的语言模型训练方法,并支持 SFT(监督微调)、PPO(近端策略优化)、DPO(直接偏好优化)等多种方式,是目前对齐和微调 LLM 的重要工具。
2025-09-13 23:30:25
758
原创 知识管理与 RAG 框架全景:从 LlamaIndex 到多框架集成
在大模型工程中,知识管理与检索增强生成(RAG, Retrieval-Augmented Generation) 是提升模型准确性和实用性的关键。通过将文档、向量索引、长期记忆和多数据源结合,大模型能够在复杂任务中实现知识增强生成。
2025-09-12 20:42:59
1027
原创 深入 vLLM:高性能大模型推理框架解析
在大模型应用中,推理性能往往成为限制系统规模和用户体验的关键因素。为此,vLLM 应运而生,提供了高吞吐量、低延迟的推理引擎,并支持多模型协作和异构硬件调度。vLLM 不仅可以独立作为推理服务,还能与 LangChain 等工程框架无缝集成,实现完整的业务流程编排。
2025-09-12 20:41:53
1020
基于MCP协议的Agent demo
2025-08-23
东南大学竞选PPT(保研,考研,奖学金)
2025-08-23
哈工大竞选PPT模板(保研,考研,奖学金)
2025-08-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅