- 博客(24)
- 收藏
- 关注
原创 大模型面经 | DeepSpeed中ZeRO-1、ZeRO-2和ZeRO-3的区别是什么?
ZeRO是用于大规模模型训练优化的技术,它的主要目的是减少模型的内存占用,让模型可以在显卡上训练,内存占用主要分为Model States和Activation两个部分,ZeRO主要解决的是Model States的内存占用问题。
2025-04-18 22:52:13
1736
原创 大模型面经 | 请你介绍一下ReAct(Reasoning and Acting)?
大模型面经 | 请你介绍一下ReAct(Reasoning and Acting)?
2025-04-15 22:40:21
733
原创 大模型面经 | DeepSeek-R1中提到的思维链(Chain of Thought,CoT)是什么?
大模型面经 | DeepSeek-R1中提到的思维链(Chain of Thought,CoT)是什么?
2025-04-14 23:00:46
1161
原创 大模型面经 | 介绍一下大模型微调方法Prefix Tuning、Prompt Tuning、P-Tuning和P-Tuning v2
大模型面经 | 介绍一下大模型微调方法Prefix Tuning、Prompt Tuning、P-Tuning和P-Tuning v2
2025-04-14 21:29:18
1172
原创 大模型面经 | 手撕多头注意力机制(Multi-Head Attention)
大模型面经 | 手撕多头注意力机制(Multi-Head Attention)
2025-04-13 21:30:45
492
原创 大模型面经 | Prefix Decoder,Causal Decoder和Encoder-Decoder的区别是什么?
大模型面经 | Prefix Decoder,Causal Decoder和Encoder-Decoder的区别是什么?
2025-04-11 22:08:28
699
原创 大模型面经 | 春招、秋招算法面试常考八股文附答案(RAG专题一)
今天给大家分享一些关于大模型面试常见的RAG(检索增强生成)相关面试题,希望对大家的面试有所帮助。
2025-04-09 16:53:03
1013
原创 一文搞懂DeepSeek核心技术-MTP(Multi-Token Prediction)
MTP 的核心思想是让模型一次性预测多个 token,以提升模型的训练效率、生成质量和推理速度。模型不仅要学习预测下一个 token 的能力,还需要同时具备预测下 n 个token的能力。
2025-04-08 12:38:55
2010
原创 一文搞懂DeepSeek核心技术-GRPO
Deepseek的GRPO(群组相对策略优化)算法是一种创新的强化学习方法,专为提升大型语言模型的推理能力而设计。它通过基于群组的评估方法和相对奖励优化机制,有效增强了模型的推理性能。与传统PPO算法相比,GRPO无需依赖独立价值模型,从而显著降低了内存和计算成本,同时提高了训练过程的稳定性。
2025-04-07 17:15:21
988
原创 一文搞懂DeepSeek核心技术-DeepSeekMoE
DeepSeekMoE 架构是一种精巧的设计,它借鉴了“分而治之”的思想,通过引入专业化的路由专家和通用的共享专家,实现了更精细化、更灵活的处理。创新地提出了无额外损耗负载均衡策略,通过动态调整可学习的偏置项,进一步提升了 MoE 架构的效率和性能。
2025-04-06 12:21:06
1212
原创 一文搞懂DeepSeek核心技术-多头潜在注意力(MLA)
大家好,我是皮先生!!本文将深入剖析模型核心技术-(MLA)的工作原理、技术创新,希望对大家的理解有帮助。
2025-04-05 23:54:49
2232
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人