AI入门学堂-CSDN博客

原创【AI大模型】大模型扫盲系列——初识大模型

大模型是指具有数千万甚至数亿参数的深度学习模型。近年来，随着计算机技术和大数据的快速发展，深度学习在各个领域取得了显著的成果，如自然语言处理，图片生成，工业数字化等。为了提高模型的性能，研究者们不断尝试增加模型的参数数量，从而诞生了大模型这一概念。本文讨论的大模型将以平时指向比较多的大语言模型为例来进行相关介绍。

2025-04-26 16:30:08 1611

原创大模型入门指南 - Training：小白也能看懂的“模型训练”全解析

***Training（模型训练）到底是个啥？****模型训练的本质是通过参数（解题思路）不断试错、用损失函数（扣分机制）量化差距、靠优化器（错题本复盘法）迭代策略、借正则化（防机械背诵规则）强化泛化，最终在验证集（模拟考）中交出高分答卷的过程。在这里分享这份完整版的大模型 AI 学习资料，已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证！*为什么需要*Training（模型训练）*？

2025-05-08 13:17:26 536

原创【大模型入门学习】小白也能轻松理解的大模型入门锦囊！

*「微调（Fine-tuning）」**是给大模型提供特定领域的标注数据集，对预训练的模型参数进行微小的调整，使其更好地完成特定任务。通过微调，可以显著提升模型在特定任务上的性能。

2025-05-08 13:03:57 433

原创【大模型入门学习】保姆级大模型应用开发入门分享

本文是作者给兄弟团队做的大模型入门分享，介绍了基本大模型模式，分享出来希望帮助更多的同学参与到LLM应用建设。前言大模型作为新兴领域，不断地冒出来新的专有术语和新的概念，让大家觉得很神秘，捉摸不透。但是大部分复杂性的背后都会有一个极其简单便于理解的模型，本次分享最主要就是大模型的基本范式，通过范式将这些神秘感去除。大模型虽然很厉害，很神秘，但作为使用人员，门槛是非常非常非常低的。模型基础虽然市面上的大型语言模型（LLMs）种类繁多，但在使用层面大家平等的都是API调包侠。

2025-05-08 11:13:06 1077

原创【大模型入门学习】2025最新大模型技术学习过程梳理

学习是一个从围观到宏观，从宏观到微观的一个过程学习大模型技术也有几个月的时间了，之前的学习一直是东一榔头，西一棒槌，这学一点那学一点，虽然弄的乱七八糟，但对大模型技术也算有了一个初步的认识。因此，今天就来整体梳理一下大模型技术的框架，争取从大模型所涉及的理论，技术，应用等多个方面对大模型进行梳理。01大模型技术梳理这次梳理大模型不仅仅是大模型本身的技术，而是一个以大模型为核心的涉及到多个方面的理论，技术和应用实践，也可以说是对自己学习大模型技术的总结吧。话不多表，下面开始进入正题。

2025-05-08 11:02:40 535

原创 Agent进化论：大模型驱动的智能应用创新

AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理*、图像识别、*语音识别等。

2025-05-06 14:57:58 768

原创盘点一下！大模型Agent 在各个行业领域的 “花式玩法”，涉及特别广泛~~

AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理*、图像识别、*语音识别等。

2025-05-06 13:39:41 889

原创【AI大模型】大模型测评，深度解析最强开源模型Qwen3

一、基础介绍4月29日，在经历了claude 3.7 ，Gemini 2.5 和 GPT 4.1 模型发布之后，通义千问终于正式发布了Qwen3系列模型，凭借仅需 DeepSeek R1 模型三分之一的硬件成本，实现了性能的全面超越，同时追平了全球顶尖的 Gemini 2.5 Pro，同时还搭载了mcp能力。

2025-05-06 11:29:04 1066

原创【AI大模型】阿里发布Qwen3炸裂更新，成本仅为DeepSeek的1/3！CTO回应流量不重要！

4月29日凌晨，*阿里宣布开源新一代通义千问模型*Qwen3*系列*，迅速在国内外引发热议。此前春节期间，Qwen2.5-Max被爆火的DeepSeek-R1抢走风头；3月发布推理模型 QwQ-32B时又赶上Manus 同天发布，因此阿里大模型被网友戏称为“这次阿里险些又要撞上DeepSeek-R2发布，算是错开了正面交锋。据晚点消息，在Qwen3发布后，*阿里云*CTO、通义实验室负责人周靖人*某一天的流量其实没那么重要前瞻性地思考，更笃定地坚持自己的技术路径和节奏**。

2025-05-02 14:00:00 434

原创【AI大模型训练】从零开始，大模型训练教程

AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理*、图像识别、*语音识别等。

2025-05-01 14:30:00 745

原创【大模型学习】三分钟带你看懂AI大模型（图文教程）

不废话，直接上干货——什么是模型？通俗地讲，模型是一个基于神经网络构建好的处理器，比如函数y=F(x)，它能够根据输入x，产生相应的预测y或者输出内容y。什么是训练？通过输入数据并监督输出结果来不断地调节每个神经元的参数，从而最终训练出输出结果与实际偏差最小的模型。如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

2025-05-01 14:00:00 534

原创万字长文带你入门LLM-基础教程

该图从左到右基于传统的词向量模型以灰色线显示：decoder-only 模型在蓝色分支，encoder-only 模型在粉色分支，encoder-decoder 模型在绿色分支。模型在时间线上的垂直位置表示它们的发布日期。开源模型由实心方块表示，而闭源模型由空心方块表示。右下角的堆积条形图显示了各公司和机构的模型数量。国内开源大模型:清华: chatglm系列;阿里: Qwen系列;百川: baichuan 零一万物;智源: Aquila2-70B;

2025-04-30 14:42:46 1042

原创【AI大模型学习】大神Karpathy亲授！最新LLM入门讲解！

Andrej Karpathy 发布了全新的视频力作，带你进行一场针对大众的深度探索，揭秘驱动 ChatGPT 及相关产品的**大型语言模型 (LLM) AI 技术**。这部时长超过三小时的视频，全面覆盖了 LLM 的**完整训练堆栈**，从模型的开发过程，到如何建立理解其 “心理学” 的**心智模型**，再到如何在**实际应用中最大化其效用**，都进行了细致的讲解。

2025-04-30 13:38:36 690

原创【2025最新】LLM微调终极指南：从入门到精通，这7招让你的模型效果提升300%

本篇文章深入分析了大型模型微调的基本理念和多样化技术，细致介绍了LoRA、适配器调整(Adapter Tuning)、前缀调整(Prefix Tuning)等多个微调方法。详细讨论了每一种策略的基本原则、主要优点以及适宜应用场景，使得读者可以依据特定的应用要求和计算资源限制，挑选最适合的微调方案。

2025-04-29 14:05:39 771

原创【大模型】LLM（大语言模型）深度指南：从GPT-4到文心一言的技术革命

语言建模的研究始于20世纪90年代，最初采用了统计学习方法，通过前面的词汇来预测下一个词汇。然而，这种方法在理解复杂语言规则方面存在一定局限性。随后，研究人员不断尝试改进，其中在2003年，深度学习先驱Bengio在他的经典论文《A Neural Probabilistic Language Model》中，首次将深度学习的思想融入到语言模型中，使用了更强大的神经网络模型，这相当于为计算机提供了更强大的“大脑”来理解语言。这种方法让模型可以更好地捕捉语言中的复杂关系，虽然这一步很重要，但仍有改进的空间。

2025-04-29 13:57:17 978

原创【大模型入门学习】初识大模型：大模型的基础知识与入门指南

对齐” 在这个上下文中指的是调整大型语言模型的输出，以使其符合人类的预期和特定需求。对齐是为了让大模型更加实用和安全。更好用符合用户预期当用户向大型语言模型提出问题或任务时，他们通常期望模型的回答或生成的文本与问题或任务的上下文相关。对齐的目标是确保模型的输出与用户的预期一致。例如，当用户询问中国的首都时，预期的答案是"北京"，而不是其他无关的信息（模型可能会输出“美国的首都是哪里？德国的首都是哪里？…”，也可能输出“这是一个大家都知道的问题”。

2025-04-29 13:32:25 1291

原创【大模型入门学习】什么是大模型？一文读懂大模型的基本概念（非常详细）零基础入门到精通，收藏这一篇就够了

*大模型是指具有大规模参数和复杂计算结构的机器学习模型。**这些模型通常由[深度神经网络]构建而成，拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能，能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用，包括[自然语言处理]、计算机视觉、语音识别和[推荐系统]等。大模型通过训练海量数据来学习复杂的模式和特征，具有更强大的[泛化能力]，可以对未见过的数据做出准确的预测。

2025-04-28 14:51:58 934

原创【大模型学习路线】2025最新大模型技术学习路线梳理！

学习是一个从围观到宏观，从宏观到微观的一个过程学习大模型技术也有几个月的时间了，之前的学习一直是东一榔头，西一棒槌，这学一点那学一点，虽然弄的乱七八糟，但对大模型技术也算有了一个初步的认识。因此，今天就来整体梳理一下大模型技术的框架，争取从大模型所涉及的理论，技术，应用等多个方面对大模型进行梳理。

2025-04-28 14:25:07 585

原创【大模型学习】大模型入门的第一课从了解大模型是什么开始

***大模型，英文名叫Large Model，大型模型。早期的时候，也叫Foundation Model，基础模型。大模型是一个简称。完整的叫法，应该是“人工智能预训练大模型”。预训练，是一项技术，我们后面再解释。我们现在口头上常说的大模型，实际上特指大模型的其中一类，也是用得最多的一类——语言大模型（Large Language Model，也叫大语言模型，简称LLM）。除了语言大模型之外，还有视觉大模型、多模态大模型等。现在，包括所有类别在内的大模型合集，被称为广义的大模型。

2025-04-28 14:17:50 585

原创【大模型学习】一文搞懂大模型！基础知识、 LLM 应用、 RAG 、 Agent 与未来发展

*LLM 探秘：想要深入了解人工智能界的“新宠”大型语言模型（LLM）吗？本文将带你走进 LLM 的世界，从入门知识到实际应用，全方位解读这个充满魔力的“大模型”。我们将一起揭开 LLM 的神秘面纱，领略其在各个领域的独特魅力。无论你是初学者还是有一定基础的 AI 爱好者，这篇文章都将为你提供宝贵的知识和启发，让你的 AI 之旅更加精彩纷呈！快来加入我们，一起探索 LLM 的奥秘吧！**

2025-04-27 16:43:14 553

原创【AI大模型入门学习】2025超细的大模型应用开发入门分享

AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理*、图像识别、*语音识别等。

2025-04-27 16:36:44 1046

原创【AI大模型入门教程】大模型入门基础-基本概念介绍

人类的语言是由文字构成，语言的含义也是由单词构成的，即单词是含义的最小单位。因此，为了让计算机理解自然语言，寻找数字表示的方法是第一步。⾃然语⾔是⽤来表达⼈脑思维的复杂系统。在这个系统中，词是意义的基本单元。顾名思义，词向量是⽤于表⽰单词意义的向量，并且还可以被认为是单词的特征向量或表⽰。将单词映射到实向量的技术称为词嵌⼊。

2025-04-27 15:05:56 669

原创大型语言模型（LLM）推理框架的全面分析与选型指南（2025年版）

本文全面深入地分析了截至 2025年2月27日主流 LLM 推理框架的最新技术动态、核心特性、以及在各种典型应用场景下的最佳实践。SGLang 凭借其高性能 runtime 和强大的分布式支持能力，在快速原型开发和企业级大规模部署领域独占鳌头，尤其结合 SkyPilot 和 Kubernetes 的实战案例，充分印证了其在复杂应用场景下的卓越表现。vLLM 和 LMDeploy 继续在 GPU 高性能推理领域保持绝对领先地位。

2025-04-26 16:12:09 720

原创【AI大模型】一天吃透一条产业链：AI大模型

在现代人工智能领域，算力扮演着推动创新、实现突破的核心驱动力。算力、算法、数据和系统架构等多个方面的综合优化对于大规模模型训练的成功至关重要。

2025-04-26 13:58:52 1022

原创【AI大模型】从理论到实践：RAG、Agent、微调等6种常见的大模型定制策略

大语言模型（LLM）是基于自监督学习预训练的深度学习模型，训练数据量庞大、训练时间长，并且包含大量的参数。LLM在过去两年中彻底改变了自然语言处理领域，展现了在理解和生成类人文本方面的卓越能力。然而，这些通用模型的开箱即用性能并。LLM单独使用时无法回答依赖于公司专有数据或封闭环境的问题，这使得它们在应用中显得。由于从零开始训练一个LLM模型需要大量的训练数据和资源，这对于中小型团队来说基本不可行。因此，近年来开发了多种LLM定制策略，以便针对需要专业知识的不同场景调优模型。

2025-04-25 15:13:39 895

原创【AI大模型】终于！有人总结了大语言模型（LLM）学习路线，超详细！

学习大语言模型（LLM）的路线可以分为多个阶段，涵盖基础知识、深度学习、自然语言处理（NLP）以及大语言模型的专门知识。

2025-04-25 14:55:09 805

原创【Ai大模型】漫画图解：一口气搞懂大模型的10个核心概念

当哪吒在闹海宫犯下错误后，太乙真人不仅惩罚他，还教导他正确的力量运用方法。类似地，RLHF不只是惩罚模型的不良输出，还通过强化学习算法引导模型产生更符合人类期望的回应。

2025-04-25 11:45:15 1114

原创【AI大模型】智能化时代：没有大模型不行，只有大模型也不行

为什么行业似乎对大模型的技术进步“脱敏”了？曾经一段时间，海外OpenAI、Google、Meta、Anthropic等厂商，国内华为、百度、阿里、字节跳动等厂商，轮番发布新的基座模型并刷屏现象级热度，参数比拼成了主旋律，仿佛大模型之“大”，可以摧枯拉朽解决一切问题。现在行业集体则显得理智了许多，并不是大模型技术没有突破了，而是大模型炫目的演示，如果不能转化为产业场景中的实际可用，即便是OpenAI连续12天的发布会，除了o3带来一点惊喜，大家只会觉得兴趣乏乏。

2025-04-25 11:27:46 756

原创 DeepSeek 中老年人使用指南，90%的人都不知道的使用技巧，强烈建议收藏！

一、前言：为什么每个人都该学会用DeepSeek？这个春节 DeepSeek 在国内国外爆火，它就像是一个无所不知的"智能小助手"，可以24小时随时陪您聊天解闷、答疑解惑。简单来说，它就是一个特别聪明的 “电子孙子”，您想问什么就问什么，从养生保健到追剧看戏，从广场舞教程到老年人防诈骗，它都能给您很好的建议。最让人惊喜的是，它特别有耐心，不管您问多少遍都不会烦，而且回答得简单易懂，完全不用担心听不懂。

2025-04-01 13:34:11 605

原创拒绝服务繁忙，电脑手机本地部署DeepSeek教程来了

这两天 AI 界算是“过年了”，Chat Gpt 和百度的文心一言相继宣布免费使用了。但咱们都知道功臣是火爆全球的 DeepSeek。根本原因也很简单，在 AI 语言大模型上面，它做到了同类型较强的表现的同时，还开源免费，这你受得了吗？相信感兴趣的同学都已经体验过了，在回答问题和实际应用上， DeepSeek 的确表现优秀。但是，也是因为爆火的原因，DeepSeek 自己提供的网页端和 App 的服务经常会陷入繁忙，导致大伙儿没了玩儿的心情。

2025-04-01 13:27:11 893

原创 DeepSeek 本地部署安装指南，让数据安全与 AI 体验双丰收

在 AI 大语言模型的激烈竞争中，DeepSeek 脱颖而出，以其强大的自然语言处理能力、出色的代码生成效果和流畅的多轮对话表现，成为众多 AI 爱好者和开发者的心头好。但用户在线使用时频繁遭遇到服务器繁忙的问题，而本地部署能有效解决这一困扰。接下来，让我们一起来探究DeepSeek如何进行本地部署，对比网络版又有什么差别。本地版本和网络版本的优缺点对比优缺点本地版本网络版本优点。

2025-04-01 11:29:13 1012

原创用大白话，讲一下最近爆火的Deepseek！

1957年10月4日，苏联成功发射了"斯普特尼克1号"人造卫星。消息传出后，从华盛顿到伦敦，整个西方都陷入了震惊和恐慌——因为这意味着：西方国家开始在技术上落后于非西方的国家。从此之后，"斯普特尼克时刻"也就成了一个专有词汇，特指那些使得西方国家陷入技术落后局面的事件。现在，"斯普特尼克时刻"又来了：顶着各种制裁，用着远低于美国科技企业的预算，一家中国企业开发的AI大模型，竟然实现了近似于GPT-4o大模型的效果。

2025-03-29 14:32:55 838

原创所有人都在讨论的“DeepSeek”，究竟是啥？

当地时间1月27日，纳斯达克股指出现3%下跌，原因是中国人工智能公司DeepSeek模型引发美国投资者关注。央视记者在纳斯达克交易所现场对纳斯达克副主席麦柯奕进行了采访。麦柯奕表示，他认为，DeepSeek将是人工智能领域革命的重要组成部分。冲击美股！DeepSeek崛起当地时间1月27日，美国股市开盘即大幅下跌，科技板块尤为惨重。市场分析认为，核心原因是中国人工智能初创公司DeepSeek的最新突破，动摇了美国科技行业的“无敌”地位。

2025-03-29 14:27:04 834

原创漫谈DeepSeek及其背后的核心技术！

一、关于DeepSeek公司及其大模型*1.1 公司概况*DeepSeek 2023年7月成立于杭州，是幻方量化旗下的子公司，全称是杭州深度求索人工智能基础技术研究有限公司。“成立时间才一年多”、“最近推出的V3已经能和OpenAI的4o媲美”、“训练成本不到600W美元”、“API定价仅是国内其他头部厂商几十分之一”、“APP已经在中美APP store登上免费应用榜首”；

2025-03-29 14:22:16 870

原创一文教你DeepSeek指令大全和DeepSeek王炸组合（附教程）

DeepSeek作为国产AI大模型的代表，其指令体系与协同应用能力展现了显著的技术突破与生态价值。以下从指令大全和协同运用搭配两方面进行系统梳理：一、DeepSeek指令大全DeepSeek通过自然语言处理技术，提供覆盖科研、办公、编程等多场景的指令功能，用户可通过精细化指令高效完成任务。以下为分类指令示例及用途：\1. 学术研究与论文写作文献处理：使用“文献速读”快速概括论文核心结论，“参考文献查找”定位高被引文献，“论文润色”按期刊格式优化内容。

2025-03-28 13:53:21 1358

原创从零开始DeepSeek本地部署超全指南

好啦，以上就是本期**「DeepSeek高能玩法」的全部内容！想获取更多DeepSeek和大模型的独家深度资料？🔥 快关注官仲号「拉吉卜的知识宝库」**，一键解锁前沿技术解析、实战案例和进阶秘籍📚！如果你在探索中有任何**「新发现/卡关难题」，欢迎甩到「评论区」**，和宝藏小伙伴们碰撞灵感💡！说不定你的问题会被收录到下一期专题哦~🚀（悄悄说：关注后回复“大模型”，还能领取专属福利礼包🎁！

2025-03-28 13:42:34 445

原创 DeepSeek R1 实现本地化部署 + 可视化访问，真的太香了！

今天继续聊聊本地部署和可视化访问。上一期的分享了 [DeepSeek R1 本地部署实战教程来了，带可视化界面，非常详细！]，使用的是实现的。，这是一种 AI 客户端形式，而非网页，使用起来更简洁，更方便快捷。介绍Cherry Studio 是一个支持多服务商集成的 AI 对话客户端，CherryStudio 目前支持市面上绝大多数服务商的集成，并且支持多服务商的模型统一调度。官网地址：你是否还在为**「DeepSeek高阶应用」挠破头？🤯 想一键收割全网稀缺的大模型实战干货**？💡。

2025-03-28 13:35:50 932

原创关于DeepSeek，你关心的答案都在这了

很多年以后，当你回想起2025的蛇年春节，你会想起在高铁上、在飞机场、在前往景点的路上，很多人都在谈论或使用一个叫DeepSeek的AI应用。很多人家里的老人在这个春节第一次问孩子，啥是AI？很多人在DeepSeek的热点分析中，第一次了解了世界AI领域的竞争格局。很多人第一次体会到了基于推理的大模型带来的震撼。别误会，今天我们可不是要强行上价值。前面这两句话，是模仿[《百年孤独》]的开头写的，估计也是很多人在这个春节的真实感受。

2025-03-27 11:08:53 833

原创 DeepSeek全新玩法合集，80%的人还不知道(建议收藏)

新版 DeepSeek V3 的一手实测大家都看了没？(猛戳回顾👉)[刚刚，DeepSeek悄悄更新，一手实测来了]毫无疑问，DeepSeek V3 这波更新，可绝对是个里程碑。全球 AI 格局注定要被颠覆，谁也阻挡不了，毕竟这是国运级 AI。那种久违的又激动、又紧张的感觉，回来了！今天官方在公众号发布了文章。不出所料，跑分和昨天实测一样，数学和代码的跑分超越了 GPT-4.5 和 Claude-Sonnet-3.7。生成之前爆火的精美 SVG 卡片封面自由：公众号、小红书、视频号散文写作。

2025-03-27 10:50:31 928

原创 DeepSeek的6个王炸组合，解放无数打工人！

最近这DeepSeek的风🌪️越刮越大，成本低、效率高，还能展现推理过程，在网上掀起一阵阵热潮🔥！在「什么值得买APP上」，值友们从各个角度开发出了一系列DeepSeek玩法！有的教你如何完美避开使用高峰，顺畅体验🌬️；有的将DeepSeek和其他AI工具的功能结合起来，教你如何各取所长、提高工作效率🤔；有的带你构建有浓厚“个人色彩”的DeepSeek,让AI成为私人助理…小值筛选出了站内备受好评的DeepSeek相关文章，带你盘点那些「DeepSeek+其他AI工具的硬核组合」，教你如何「

2025-03-27 10:42:48 954

空空如也

空空如也