
大模型
文章平均质量分 93
大模型
Tadas-Gao
这个作者很懒,什么都没留下…
展开
-
初探大模型微调
LLaMA-Factory 支持多种流行的语言模型,如 LLaMA、BLOOM、Mistral、Baichuan 等,涵盖了广泛的应用场景。从学术研究到企业应用,Llama-Factory 都展示了其强大的适应能力和灵活性。此外,Llama-Factory 配备了用户友好的 LlamaBoard Web 界面,降低了使用门槛,使得即便是没有深厚编程背景的用户,也能轻松进行模型微调和推理操作。原创 2025-06-04 08:30:00 · 531 阅读 · 0 评论 -
5 个经典的大模型微调技术
技术核心改进训练参数内存优化性能表现适用场景LoRA引入低秩矩阵 A、B 微调,冻结 W较少(~0.1% 参数)中等接近全量微调通用微调LoRA-FA冻结 A,仅训练 B更少(比 LoRA 减半)高接近 LoRA低显存设备VeRA共享随机 A、B,训练缩放向量 d、b极少(比 LoRA 少 10 倍)最高略低于 LoRA超低参数微调Delta-LoRA通过 BA 的梯度更新 W较多(额外调整 W)中等优于 LoRA高精度微调LoRA+原创 2025-06-03 16:20:46 · 421 阅读 · 0 评论 -
大模型的外围关键技术
Gradio 是一个用于快速创建可分享的机器学习模型界面的开源 Python 库。通过 Gradio,开发者能够轻松地为他们的模型创建前端界面,从而使非技术用户也可以通过简单的网页界面与这些模型进行交互。Gradio 的一些主要特点包括:易用性:Gradio 允许开发者仅用几行代码就能创建出交互式的界面。集成:它支持多种机器学习框架,如 TensorFlow、PyTorch 和 Hugging Face Transformers。原创 2025-06-03 13:07:04 · 567 阅读 · 0 评论 -
哪些高端技术带来了 DeepSeek 的一夜爆火?
普通模型像“挤牙膏”,一次只预测1个词;MTP 像“连珠炮”,一次蹦出多个词,大幅加速文本生成。原创 2025-06-02 13:52:35 · 1098 阅读 · 0 评论 -
Transformer 是未来的技术吗?
现在的大模型基本都是基于 Transformer 或者它的演进技术,那么,未来一定还是 Transformer 或它的演变技术吗?原创 2025-06-02 08:56:26 · 907 阅读 · 0 评论 -
多智能体在具身智能上的研究
在中,我们提到大模型的终局是具身智能。那么,本文我们就来看看多智能体在具身智能上有了哪些应用。Manus发布一天后迅速出现OpenManus、OWL等复刻项目。为什么可以这么快的复刻项目?其实,多智能体技术 2023 年 3 月就开始做了,都做了两年了,只是一直不温不火。原创 2025-06-02 08:00:37 · 913 阅读 · 0 评论 -
聊聊DeepSeek V3中的混合专家模型(MoE)
在深度学习领域,模型架构的选择直接影响着。稠密模型(Dense Models)和混合专家模型(Mixture of Experts, MoE)代表了两种截然不同的设计思路,它们各有优势,适用于不同的应用场景。稠密模型是深度学习中最传统也最普遍的架构类型,其核心特征是——模型中的每个神经元都与下一层的所有神经元相连,形成密集的网络结构。在稠密模型中,。这种全连接的特性使其能够捕捉数据中复杂的非线性关系和深层次特征。原创 2025-06-01 17:23:54 · 958 阅读 · 0 评论 -
从 GPT 的发展看大模型的演进
这是一个技术爆炸的时代。一起来看看 GPT 诞生后,与BERT 的角逐。BERT 和 GPT 是基于 Transformer 模型架构的两种不同类型的预训练语言模型。它们之间的角逐可以从 Transformer 的编码解码结构角度来分析。BERT 和 GPT 在编码解码结构方面有着明显的差异。BERT 更适用于需要双向上下文信息的任务,而 GPT 则擅长生成连贯的文本。在实际应用中,可以根据任务需求选择合适的模型进行使用。原创 2025-06-01 13:54:33 · 970 阅读 · 0 评论 -
大模型应用的技术架构有哪些?
(稍微有点基础都能上手,但搞懂搞透需要大量的积累和沉淀)大模型应用的技术架构主要有四种方式:纯 prompt、Agent+Function Calling、RAG(检索增强生成)和 Fine-tuning(微调)。原创 2025-06-01 09:20:58 · 621 阅读 · 0 评论 -
Transformer 中的注意力机制很优秀吗?
System 1 和 System 2 是心理学家丹尼尔·卡尼曼(Daniel Kahneman)在其著作《思考,快与慢》中提出的双系统理论模型,用于描述人类思维的两种不同模式。System 1(快思考)自动、快速、无意识运作,依赖直觉和习惯。无需刻意努力,适用于熟悉的场景(如识别表情、简单算术)。容易受偏见和情绪影响,可能产生错误判断。System 2(慢思考)需要主动控制、缓慢且有意识的逻辑分析。用于复杂任务(如解题、决策权衡),消耗认知资源。原创 2025-06-01 08:59:49 · 722 阅读 · 0 评论 -
全模型微调 vs LoRA 微调 vs RAG
下图是一个全模型微调、LoRA 微调和 RAG 的可视化呈现,这三种技术都用于通过额外数据来增强现有模型的知识储备。原创 2025-05-31 20:34:45 · 293 阅读 · 0 评论 -
来聊聊Q、K、V的计算
简单的例子,来理解一下 Q、K、V。:比如“今晚吃啥?:菜单上的菜名(关键词),比如“红烧肉”“青菜”。:菜的实际内容(具体信息),比如“红烧肉=肥而不腻”。注意力机制就是:用你的问题(Q)去匹配菜单(K),找到最相关的菜,然后返回它的描述(V)。注意力机制的分数计算公式,如下:Softmax 将任意实数向量转换为概率分布:为避免指数溢出,实际实现中会减去最大值:举个简单的例子。原创 2025-05-31 15:06:11 · 772 阅读 · 0 评论 -
初探注意力机制
标量是0维张量。向量是1维张量。矩阵是2维张量。张量是n维数组(n ≥ 0)。词向量(Embedding)是什么?假设我们有⼀个句⼦:“The teacher said”,词向量如下:你可能看了不下于几十篇关于 Transformer 的视频或文章,但最后对于 Q、K、V 的计算依然是一头雾水,这是很多学习者的共同困惑。注意力机制是什么呢?我去了几次咖啡店?"昨天,我在一个繁忙的一天结束后,决定去我最喜欢的咖啡店放松一下。我走进咖啡店,点了一杯拿铁,然后找了一个靠窗的位置坐下。原创 2025-05-31 14:46:42 · 994 阅读 · 0 评论 -
初探 Transformer
Endcoder 的第二层,也就是位置编码层,会为嵌入层输出的这些向量添加位置信息,把位置信息融合到嵌入向量中,这能帮助模型区分不同词汇在输入中所处的位置。自注意力机制会针对每个带有位置编码的输入向量,去计算和其他位置的关联程度,从而捕捉输入内部的上下文关联信息,形成一个注意力权重的分布作为后续层的输入,指导模型的学习过程。在标准的 Transformer 模型中,编码器通常由 6 层堆叠而成(低层捕捉局部特征,如词级关系,高层整合全局语义,如句/段级关联),每一层的结构相同,主要由。原创 2025-05-31 14:04:07 · 454 阅读 · 0 评论 -
学习大模型,到底要学什么?
在‘乱花’中保持定力,方能见微知著。AI行业炒作术语频出(“乱花”),但技术突破常源于基础理论(“浅草”)。在这个信息爆炸的时代,我们要抓住事物的本质。如今通过强调经典方法、阅读经典论文,可以让学生理解知识的源头与演进脉络,培养批判性思考能力。总体而言,「你怎么连 attention 的 Q/K/V 向量都没推导过就来调模型?」现实可能是:「我只是想学个微调技巧,用 LLaMA 写个客服机器人」在当今技术飞速发展的背景下,许多高校依然强调「」,这并非单纯的「固步自封」。原创 2025-05-31 11:10:30 · 854 阅读 · 0 评论 -
关于大模型的认知升级
我们整天都讲着大模型,但我们对大模型到底了解多少?原创 2025-05-31 10:51:55 · 863 阅读 · 0 评论 -
个人开发者选 GPU 的简单方案
然而,Intel的传统架构中,CPU和GPU仍然主要依赖于各自独立的内存,尽管通过共享虚拟内存和高速缓存来提高效率,但在完全统一内存方面与苹果的解决方案相比还有一定差距。M1 Pro和M2 Pro都做到了200GB/s的内存带宽,M1 Max和M2 Max则做到了400GB/s 的内存带宽,M1 Ultra和M2 Ultra更是做到了800GB/s的内存带宽。高通对标M2 Max的X Elite,借助高频的LPDDR5x,也才把内存带宽做到136GB/s,而苹果M2 Max做到了400GB/s。原创 2025-05-31 10:02:36 · 1161 阅读 · 0 评论 -
聊聊 GPU 与 CPU的那些事
CPU 的处理⽅式以“顺序处理”为主。也就是说,CPU 会逐步、⼀条接⼀条地执⾏指令,这与并⾏处理不同。虽然多核技术和超线程技术可以在⼀定程度上缓解这种顺序处理的局限,但它并不是为⼤规模并⾏计算设计的。相⽐于能够⼀次处理⼤量数据的图形处理器(GPU),CPU 更适合处理复杂且需要精确计算的任务。GPU 的架构设计⾮常独特,由成百上千个⼩型处理单元组成,每个处理单元能够独⽴并⾏执⾏指令。这种⾼度并⾏的处理能⼒使 GPU 能够同时处理海量数据,这也是其与多核 CPU 的相似之处。原创 2025-05-31 09:40:18 · 481 阅读 · 0 评论 -
人工智能公司的 Logo 有什么特点?
这些人工智能公司的 Logo 标志像什么?圆形括约肌美学。圆形(通常带有渐变)中央开口或焦点从中心辐射元素柔和、有机的曲线FastCompany 在 2023 年注意到了这一趋势,并发表了一篇文章:人工智能热潮正在创造一种新的标志趋势-旋转的六边形。看看大型人工智能公司的标志,你会发现它们几乎都是圆形或雪花状,并且中央有一个开口。只有 DeepSeek 和 Midjourney 没有跟风。有趣的是,这两款应用都与海洋有关。但 Anthropic 的 Claude 将其提升到了一个新的水平。原创 2025-05-30 19:51:06 · 1041 阅读 · 0 评论 -
模型到底要用多少GPU显存?
例如,一个 1B(10 亿参数)的 FP32 模型,单个参数占 4 字节,那么模型大小为:模型大小 = 参数数量 × 每个参数字节数 = 10 亿 × 4 字节 = 40 亿字节 ≈ 4GB。假设有一个拥有700亿个参数的模型,使用float16精度进行训练,批大小为32,序列长度为512,隐藏层大小为4096,80 层,使用Adam fp32优化器。GPT-2(XL)有 15 亿个参数,在 16 位精度下会消耗大约 3GB 的显存(在 16 位精度下,一个参数占用 2 字节的显存)。原创 2025-05-30 17:52:20 · 343 阅读 · 0 评论