大模型.-CSDN博客

原创狠狠收藏！关于Deepseek，看这一篇就足够了

最近，AI界黑马DeepSeek爆火。AI圈、科技博主、职场人，甚至连朋友圈的宝妈群都在聊——“DeepSeek太强了！”“国产GPT之光！”“中文能力碾压！但Deepseek这个名词对部分人来说还比较陌生，怎么高效使用也是一个未知数，今天，就让我们一起走进DeepSeek的世界，看看它到底有多厉害！顺便再给你个DeepSeek万能使用模板，让你彻底摆脱提示词焦虑，让AI真正成为你的“最强大脑”！

2025-02-04 11:58:09 14307

原创【Qwen3 + MCP】快速打造一个免费的Qwen AI图像生成助手

模型上下文协议（MCP）赋予了AI Agent调用外部工具的能力，极大地拓展了AI的应用边界。最新开源的Qwen3系列大模型不仅在性能上表现优异，还原生支持MCP，为高级AI Agent应用的构建提供了坚实的基础。尽管借助Cursor、Cherry Studio、Open-WebUI等图形化客户端，用户能够便捷地体验Qwen3的MCP功能，但对于那些渴望深度集成、定制化操作和精细控制的开发者来说，通过代码实现才是核心途径。基于此，Qwen团队推出了Qwen_Agent框架。该框架提供了一种比直接使用底层

2025-05-12 10:01:27 670

原创对于零基础者，怎样开启大模型微调学习之路？

很多`AI`新手在接触大模型时都会被"微调"二字劝退。想实战没有环境？自己根本玩不转？本文带你用一杯咖啡的时间，了解大模型的微调技术，无需高端显卡，用魔塔社区免费资源即可实战体验，在实战中理解微调技术，感受薅羊毛的快乐！根据具体需求（如训练速度、内存占用、灵活性等）选择合适的微调方案，本次以`LoRA`为例进行微调测试。常见的微调技术如下：

2025-05-12 09:54:29 803

原创月薪超6w！真心建议大家冲一冲这个新兴领域，人才缺口极大！

AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。

2025-05-10 10:28:04 551

原创一文看懂通信中的大型人工智能模型的基础、应用与挑战！

1、总结：本章总结了 LAM 在计算资源分配、频谱资源分配和能源资源优化中的应用。LAM 通过实时预测和分析网络需求，可以智能地分配资源，同时，LAM 也能通过学习通信网络中的能耗模式来优化能源使用策略。2、经验教训：从本章中，我们得出了一些重要经验。首先，尽管 LAM 能够提高计算资源分配的优化效率，但在资源受限和动态通信环境中，它们的泛化能力有限，可能导致次优甚至不可行的分配策略。

2025-05-10 10:21:30 525

原创 RAG 革新浪潮来袭：一文讲明白所有RAG概念！附带完整RAG实践过程！

现在，针对医院智能问诊场景做出实践。智能问诊场景中RAG框架需要借助代表静态资产的医学知识（例如临床医疗指南NCCN、UpToDate和医学论文PubMed等）和代表动态资产的患者日志病历（例如患者电子病历EMR等）进行简单/推理性质的询问，其中主要技术链路如下图。整个业务流程如下：用户提出问题后，DeepSeek-R1 作为 LLM 基座，会先对用户提问进行意图分析，判断是调用基于医学知识文档的 RAG，还是启用用于联表查询的 SQL Tools 等基础工具。

2025-05-09 10:40:01 912

原创百度&信通院 | 2025年大模型平台落地实践研究报告（附下载）

大模型技术发展迅速，我国政策大力支持，市场需求旺盛，推动其在各行业落地。但大模型落地面临诸多难题，如顶层规划和需求分析盲目、技术壁垒高、运营管理机制缺失等。大模型平台通过“建、用、管”模型，为大模型落地提供全流程支撑，解决技术转化与工程化应用难题。

2025-05-09 10:23:03 931

原创一天吃透一条产业链：AI Agent（智能体）产业链全解

是一类具有自主执行能力的智能程序，它能够模仿人类的认知过程，通过收集环境信息、制定行动方案，最终独立完成各项任务。就像你委托它预订周末餐厅，它会先全面了解你的偏好和要求，这一信息收集过程如同人类的感知；紧接着，它会将预订任务拆解为筛选高评分餐厅、浏览菜品清单、敲定用餐时段等具体环节，完成策略规划；最后，有条不紊地执行每一步操作，直至成功预订，完整呈现出一套自动化的任务处理流程。基于大模型（LLM），就像人类大脑的中枢，负责理解问题、生成思路。

2025-05-09 09:51:35 1012

原创摆脱云端限制！Qwen3+MCP+Ollama 本地工具调用实战教程

通义千问 3 搭配通义千问智能体（Qwen - Agent）、模型上下文协议（MCP）和 Ollama，可构建强大的本地人工智能助手，摆脱对外部云服务的依赖。该组合支持多轮对话、实时信息检索与 Python 代码执行，所有操作均可在本地环境完成。对于重视隐私、追求灵活性与扩展性，且致力于构建智能体的开发者、研究人员和产品团队而言，这无疑是理想之选。随着通义千问 3 持续迭代，未来它将更有力地支持复杂任务，实现与自定义工具的无缝融合，为本地自主人工智能智能体的发展开拓广阔前景。

2025-05-08 10:14:45 1040

原创大模型领域常用名词解释（近100个）【建议收藏】

本文总结了大模型领域常用的近100个名词解释，并按照1、：一种基于深度学习的大规模神经网络模型，通常采用Transformer架构。它能够处理大量的语言数据并生成高质量的文本，通过大规模的数据集训练来学习语言的复杂模式。2、：一种广泛应用于自然语言处理任务的神经网络架构，因其自注意力机制(self-attention)而能够高效处理序列数据中的长距离依赖关系，成为NLP领域的主流架构。3、：一种能够处理序列数据的神经网络架构，适用于自然语言处理等任务。

2025-05-08 10:09:54 796

原创程序员快速转型大模型开发：学习路线千万别弄反了！

在生成式AI席卷全球的浪潮中，大模型开发已成为程序员转型的黄金赛道。但许多开发者因路径选择错误，陷入"学完Transformer却看不懂矩阵运算"、"调通HuggingFace但改不动模型结构"的困境。本文将从底层逻辑出发，揭示正确的技术演进路线，提供可落地的学习框架。

2025-05-08 09:59:22 656

原创 2025 程序员转行做大模型：职业发展前景、可选岗位与选择策略

在科技飞速发展的 2025 年，大模型技术正以前所未有的速度改变着我们的生活和工作方式。从智能语音助手到精准的医疗诊断，从高效的物流调度到个性化的推荐系统，大模型的应用无处不在。这一技术浪潮，也为广大程序员带来了新的职业发展机遇。许多程序员开始思考：转行做大模型，会是一个好的选择吗？如果决定转行，又有哪些岗位可以选择，该如何做出合适的选择呢？接下来，我们就一起来探讨一下这些问题。

2025-05-07 10:04:48 1033

原创大语言模型（LLM）是什么?大语言模型综述，初学者入门必看指南！

面对大量的文本信息，如学术论文、新闻文章、会议记录等，大语言模型可以自动提取关键信息，生成简洁明了的摘要。这对于研究人员快速了解相关领域的研究成果、企业管理者快速掌握市场动态等都具有重要意义。例如，在金融领域，分析师可以利用模型生成的公司财报摘要，快速分析企业的财务状况和经营成果；在信息检索领域，搜索引擎可以结合文本摘要技术，为用户提供更精炼的搜索结果预览，帮助用户更快地找到所需信息。

2025-05-07 10:00:14 874

原创 AI大模型工程师薪资翻3倍！普通人怎么上车？

年薪百万，公司抢着要！”——这可不是吹牛。。从ChatGPT到Sora，科技巨头们疯狂砸钱挖人，应届生起薪60万，资深专家年薪百万不稀奇。凭啥这么火？小白能转行吗？怎么上手？这篇给你说明白！

2025-05-06 10:08:20 779

原创【科普】理解 “Token“ 与分词器：学懂 Transformer 的关键顿悟时刻！

Token和分词器是LLM的“幕后英雄”。Token是AI处理文字的基本单位，分词器则是把文字变成Token的魔法师。从早期的WordPiece、BPE，到SentencePiece与Tiktoken，我们可以看到：分词器并不是一件小事。它影响的不只是文本编码效率，更深刻地决定了模型理解语言的方式、训练成本以及推理表现。希望这篇文章让你对Token和分词器有了清晰的认识！只有真正理解了 Token，我们才能更好地驾驭大模型，让它为我们的任务所用。

2025-05-06 09:55:11 912

原创普通人如何用好千问3！9大场景+喂饭级Prompt，助你玩转教育场景~

今天我们聚焦的是「教育」场景！这些，都能帮你实现！今天，我就手把手带你，把千问3 这个“高科技”拉下神坛，变成你！咱们不讲那些复杂的原理，只讲准备好了吗？拿出手机，打开你的(确保是最新版哦！)，跟我一起，给你的家庭教育来一次 AI 大升级！Let’s GO!简单来说，就是阿里最新、最强大的 AI 模型，你可以把它理解成一个“会说话、会思考、会创作”的智能大脑。也可以把它想象成一个住在你手机里的的结合体。为啥说它特别适合咱们普通家长用呢？它是一个可以帮你的强大伙伴。关键在于，

2025-05-05 10:54:28 1277

原创 AI Agent是什么？一文读懂这位“全能管家”

智能体（Agent）是一种能够感知环境、制定决策并采取行动以实现特定目标的AI系统，一般具有记忆、规划、采取行为、使用工具等基本能力，如下图所示，其中规划中有思维链、能进行反思、目标分解。与传统AI系统不同，智能体具有自主性、持续性和适应性，能够在复杂环境中持续学习和优化自身行为。

2025-05-05 10:32:30 1486

原创大模型应用落地白皮书：企业AI转型行动指南（附下载）

大模型应用落地白皮书：企业AI转型行动指南》由火山引擎与IDC联合发布，核心观点围绕大模型技术与企业业务融合展开，旨在为企业AI转型提供指引。大模型加速从探索走向落地：大模型技术推动AI应用升级，企业对其关注度和投资持续增加，积极拓展试点范围。大模型为企业带来多维价值，涵盖员工、用户、营收和市场等方面，提升工作效率、创新用户体验、推动产品服务升级等，坚定了企业探索其潜力的决心。企业落地面临的挑战与机遇：大模型落地面临高成本、模型选配难、部署落地细节复杂、安全风险与可解释性等多重挑战。

2025-05-04 10:45:00 1801

原创多模态大模型入门指南，看完不迷路！

最近，多模态大模型取得重大进展。随着数据集和模型的规模不断扩大，传统的 MM 模型带来了巨大的计算量，尤其是从头开始训练的话。研究人员意识到 MM 的研究重点工作在各个模态的连接上，所以一个合理的方法是利用好现成的训练好的单模态基础模型，尤其是 LLM。这样可以减少多模态训练的费用，提升训练效率。MM-LLM 利用 LLM为各种 MM 任务提供认知能力。LLM 具有良好的语言生成，zero-shot 和 ICL 的能力。其他模态的基础模型则提供了高质量的表征。考虑到不同模态的模型是分开训练的，如何将不

2025-05-04 08:15:00 691

原创 2025年AI大模型谁能笑到最后？

前几天对比了几个问题，国外的O3、Claude算是最好的，其次是grok。国内的DeepSeek，qwen，其次就是kimi，豆包。qwen，无论是微调还是推理都非常稳健，是我微调模型首选，kimi，我处理长文本进行了比较，用下来kimi 128b的极好，如果充值的话，可以和幻觉的R1和V3相媲美。Qwen不如豆包一坨，国内这些ai都处于“难用”状态，但架不住豆包最“人性化”，尤其是语音拟人，直接秒全场。豆包是最适合生活场景的。这几个相信也一定能活下来的。现在也是事实意义上的三巨头。

2025-05-03 13:45:00 1098

原创【科普】大模型时代，为什么模型都是多少B？

在大模型时代，用“多少B”来描述模型规模并非偶然，它深刻反映了模型的核心属性——参数数量，而参数数量又紧密关联着模型的复杂度、学习能力以及实际表现。从几B到上千B的模型，不同规模在各自的应用场景中发挥着独特作用，模型规模的增长在推动人工智能技术飞跃的同时，也带来了训练成本、数据需求等方面的严峻挑战。但正是在不断应对这些挑战的过程中，技术得以持续创新和进步。随着未来计算技术、算法优化以及数据处理方法的不断发展，我们有理由期待大模型在更多领域创造出更令人瞩目的应用成果，进一步改变我们的生活和工作方式。

2025-05-03 07:45:00 1657

原创 2025年DeepSeek大模型及其企业应用实践报告（企业篇）(附下载)

大模型以其海量参数、强大学习能力和泛化能力，能够处理多种类型的数据，并在多个领域展现出巨大潜力。报告详细探讨了大模型在不同行业中的应用，如自然语言处理、计算机视觉、语音识别、医疗健康、金融风控等，并以DeepSeek大模型为例，展示了其在客户服务、个性化推荐、教育与培训等多个场景中的具体应用案例。此外，报告还讨论了。

2025-05-02 12:00:00 705

原创都在劝退？大模型前景如何

这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能，能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用，包括。

2025-05-02 07:45:00 1295

原创大模型多种多样！掌握这份模型选择指南就够了

大模型发展太快了，还记得年初 Deepseek R1 的发布吗？才过了4个月，几乎每一家模型厂商都推出了王炸级的模型。从指令型、多模态发展到推理型和Agentic代理型，虽然不同厂家的模型都有了各自的特点和擅长，用户根据场景来选择有哪个模型，但顶不住 LLM行业（ Large Language Model）发展太快，先不说应用的发展，就LLM的数量和版本多的就让用户迷惑。

2025-05-01 10:00:00 821

原创大模型是什么？大模型综述，看这一篇就够了！

（Large Models）通常指参数规模庞大（通常在十亿到万亿级别）的深度学习模型。这类模型通过在大规模数据集上进行训练，具备强大的泛化能力和复杂的任务处理能力，尤其在自然语言处理（NLP）、计算机视觉（CV）和多模态任务中表现突出。例如，GPT-3（1750亿参数）和PaLM（5400亿参数）是典型的大模型。那么，大模型和小模型有什么区别？

2025-05-01 07:30:00 1138

原创小而强大，阿里开源全球最强开源模型 Qwen3！

北京时间 4 月 29 日凌晨 4 点 52 分，我们终于等到了 Qwen3（千问 3）的正式亮相。从 23 年 8 月开始，我们就一路看着 Qwen 模型的开源与迭代，而这一次千问 3 的发布可能是最惊喜的一次！放几个关键词：全系列，开源最强，混合推理，思考更快，成本骤降，Agent 能力提升…简直 buff 拉满，一起来感受一下！

2025-04-30 09:55:57 1194

原创大模型入门指南 - Training：小白也能看懂的“模型训练”全解析

Training（模型训练）本质是AI世界的‘科学烹饪实验’——以数据为食材原料，用超参数作配方比例，借验证集做品控质检，将‘玄学炼丹’的试错过程，淬炼成‘可复现的精密工程’。今天用最通俗的话，带你拆解模型训练（Training）全过程。

2025-04-30 09:52:31 1127

原创阿里通义千问 Qwen3 系列模型正式发布，该模型有哪些技术亮点？

好了，关于 Qwen3 的深度解读和实战指南，今天就先带大家“飚车”到这里。

2025-04-29 15:37:07 1144

原创大模型算法面经：Function Call、MCP、A2A

为每个工具、插件或 API 设计一个符合上述 Function Call 格式的结构化描述（JSON Schema 是常用方式）。

2025-04-29 10:16:53 895

原创一文看懂‘推理大模型‘与‘普通大模型‘的区别

与普通大模型相比，推理大模型倾向于在回答给定问题之前将问题分解为更小的步骤（通常称为推理步骤或思维过程）。那么“思维过程”、“推理步骤”或“思路链”实际上是什么意思呢？尽管我们可以思考LLM是否真的能够像人类一样思考，这些推理步骤将过程分解为更小的、结构化的推理。到 2024 年上半年，为了提高 LLM 在预训练过程中的性能，开发人员通常会增加以下大小：模型（参数数量）数据集（标记数量）计算（FLOP数量）综合起来，这被称为训练时计算，指的是预训练数据是“人工智能的化石燃料”。

2025-04-29 09:45:38 907

原创【大模型入门篇】如何系统的入门大模型？

本篇回答默认面向对大模型领域感兴趣的程序员。：基于提示词对大模型的使用，会问问题就行。在大模型生态之上做业务层产品。AI主播、AINPC、AI小助手。。。之前是会调API就行。现在有了GPTs，连调用API都可以不用了，动动嘴就可以实现应用生成。：给大模型配个“资料袋”——大模型外挂向量数据库/知识图谱。给大模型“大脑”装上记忆体、手和脚，让它可以作为智能体进行决策和工作。：基于基座大模型的Fine Tuning。大模型训练，高端赛道的角逐。

2025-04-28 10:41:58 930

原创大模型面试：大模型微调面试

一般 n B的模型，最低需要 16-20 n G的显存。（cpu offload基本不开的情况下）vicuna-7B为例，官方样例配置为 4*A100 40G，测试了一下确实能占满显存。128，max length 2048）当然训练时用了FSDP、梯度累积、梯度检查点等方式降显存。SFT的重点在于激发大模型的能力，SFT的数据量一般也就是万恶之源alpaca数据集的52k量级，相比于预训练的数据还是太少了。。，即使在多语言场景下也能有不错表现。。应该；。（比如：数百个）否则可能会；万），。

2025-04-28 10:27:22 1027

原创图解 Transformer，一文吃透工作原理

另一种方法是保留前两个最有可能的单词（例如 ‘I’ 和 ‘a’），然后在下一步中，运行模型两次：一次假设第一个输出位置是单词 ‘I’ ，另一次假设第一个输出位置是单词 ‘a’，然后根据考虑位置 #1 和 #2 的错误程度，保留生成误差较小的版本。这种方法称为“束搜索”（beam search），在我们的示例中，束宽（beam_size）为 2（这意味着在任何时候，模型会在内存中保留两个部分假设，即未完成的翻译），而返回束（top_beams）也是 2（这意味着我们最终会返回两个翻译）。

2025-04-28 10:16:44 1313

原创【大模型入门必看】0基础入门大模型的学习路线

0基础入门大模型，transformer、bert这些是要学的，但是你的第一口不一定从这里咬下去。真的没有必要一上来就把时间精力全部投入到复杂的理论、各种晦涩的数学公式还有编程语言上，这样不仅容易让你气馁，而且特别容易磨光热情。

2025-04-27 17:21:37 630

原创基于 MCP Http SSE模式的天气助手智能体开发实战（一文带你了解MCP两种开发模式）

本次分享我们深入浅出地介绍了MCP（模型上下文协议）的两种通信方式：标准输入输出（stdio）和基于HTTP的服务器推送事件（SSE）。通过开发一个天气助手智能体的实战案例，生动展示了两种模式的异同——stdio适合本地高效通信，而SSE则适用于远程分布式场景。本次分享我还着重对比了代码差异，比如SSE需要URL参数，而stdio直接调用子进程。最后，还为大家安利了调试神器MCP Inspector，能一键测试服务端功能，堪称“懒人福音”。

2025-04-27 11:18:17 981

原创一文讲清楚AI Agent（智能体）

AI Agent（Artificial Intelligence Agent，人工智能代理）是一种能够。

2025-04-27 11:09:23 795

原创 3步搭建企业级Text2SQL应用，RAGFlow 实现自然语言转 SQL 的终极指南!

在企业大模型应用方面，Text2SQL一直是应用热点。大家都希望小嘴一张，就完成一系列数据提取和分析工作。但是，使用大模型自动理解业务需求，实现 SQL 代码编写和代码执行一直都存在技术难点。传统的 Text2SQL 方案，往往依赖，对于中小企业而言，带来非常高的应用成本。今天，介绍一个方法，使用开源 RAG 框架RAGFlow，应用知识库检索与大模型推理结合，不需要对模型做任何微调，只需要仅需配置少量结构化数据即可实现精准SQL生成，实现等多种场景。

2025-04-27 11:05:45 1124

原创【MCP实战】用 Fastapi-MCP 快速从 0 开发一个 MCP Server

新增简单工具：获取当前时间format: str = "human" # 可选: iso | timestamp | human至此，我们就学会了怎么用Fastpi-MCP的工具来实现自己的 MCP服务。建议一定要到官网学习：https://github.com/tadata-org/fastapi_mcp。

2025-04-25 10:18:05 1137

原创【建议收藏】一口气学完谷歌最新AI提示工程教程精华,看完直接弯道飙车！

提示工程是设计高质量提示的过程，目的是引导大型语言模型生成准确、相关的输出。根据谷歌的定义，它是"设计高质量提示的过程，这些提示指导LLM生成准确的输出。此过程涉及调整以找到最佳提示，优化提示长度，以及评估与任务相关的提示的写作风格和结构。大型语言模型(LLM)本质是一个预测引擎：输入文本，预测下一个可能的词语。模型连续地预测下一个token应该是什么，将先前预测的token添加到文本末尾，不断重复此过程生成完整回答。核心原理LLM根据训练数据预测下一个词的概率好的提示能引导模型产生符合预期的输出。

2025-04-25 10:00:09 680

原创人工智能小白必看系类：人工智能基础知识（附免费下载）

本篇系统而全面地概述了人工智能的知识体系。首先，我们定义了人工智能的基本概念，这是理解整个领域的基础。随后，通过对人工智能发展历程的梳理，我们展示了其从诞生到如今的演变轨迹，凸显了其在科技进步中的重要地位。接下来，我们深入探讨了机器学习与深度学习这两项核心技术。此外，我们还特别关注了大模型与AIGC（Artificial Intelligence Generated Content，人工智能生成内容）的兴起。这两项技术代表了人工智能领域的最新进展，它们的出现将进一步加速人工智能在各行业的应用与普及。

2025-04-24 10:19:36 847

2024中国AI大模型场景探索及产业应用调研报告

用Python写几种不同的烟花效果-烟花代码.rar

看漫画学Python 2：有趣、有料、好玩、好用（全彩进阶版）.rar

30个Python游戏源码

Java架构面试真题Spring篇

空空如也