大模型零基础教程-CSDN博客

原创 Anthropic工程师教你怎么做AI Agent：不做全场景、保持简单，像Agent一样思考

反过来理解就是别做什么都能干的 Agent，那是我们大模型要干的事情😄Barry 主要负责 Agentic System，演讲内容基于他和 Eric 合著的一篇博文，下面详细总结他们的核心观点，以及对 Agent 系统的演进和未来的思考。Agent 主要用于扩展复杂且有价值的任务，它们成本高、延迟高，不应作为所有用例的直接升级。对于可以清晰映射决策树的任务，显式构建工作流（Workflow）更具成本效益和可控性。

2025-04-12 11:34:04 786

原创连夜杀疯！谷歌A2A协议开源，AI Agent生态一夜变天！

A2A是一种开放协议，为Agent提供了一种标准的交互方式，使它们能够相互协作，无论底层框架或供应商是什么。以前这些平台上的Agent无法自由通信。现在通过A2A协议，这些企业平台可以安全、自由地自动化交互数据。每个Agent就像不同品牌的手机——苹果不能直接给华为发iMessage，必须通过第三方工具转接，效率低还不安全。A2A协议就像给所有AI智能体装了一个“通用微信”——不同品牌的AI可以直接、安全地互相调用功能！

2025-04-12 11:32:36 737

原创【Dify+deepseek+MCP】从入门到精通，手把手教你效率开挂（二）

在开始给大家进行MCP的案例演示之前（正式发车），我们需要先。👋👋👋）“目前有哪些主流平台/三方工具支持MCP？“从哪里找到最新的MCP三方工具？从下图可知，大模型（Host）跑在MCP客户端（Client）上，我们完成任务所需要的工具和数据跑在MCP 服务器（Server）上。服务器和客户端之间，通过MCP协议进行通信和连接。因此，我们。我们通过客户端和服务器的组合，就可以实现特定的任务。快速**了解客户端和服务器有哪些关键能力，**便于判断MCP客户端和服务器能力。

2025-04-11 14:19:02 1608

原创【Dify+deepseek+MCP】从入门到精通，手把手教你效率开挂（一）

对于想要了解和研究AI领域的人来说，MCP可谓不可不学。自2024年11月份由Anthropic发布以来，尤其AI Agent的爆火，MCP热度迅速提升，目前已经成为了业内大模型和工具交互的标准协议。今年3月，OpenAI宣布支持MCP，阿里云从4月9日开始在百炼平台上全面支持MCP服务部署与调用，不少工具和平台也已相继支持MCP。近期了解到，国内很多公司也在开始内部推行并将MCP嵌入到大模型相关的应用场景当中。MCP就像给AI装了个智能路由器，效果更好，成本更低，数据更安全。

2025-04-11 14:18:13 1458

原创多模态RAG及SQLRAG方案总结、大模型应用中的追问及Agent操作UI逻辑思考

可以看看数据侧，多模态的一些动向和索引。抓住根本问题，做根因，专题化，体系化，会有更多深度思考。大家一起加油。老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

2025-04-10 13:55:12 968

原创小白入门大模型保姆级教程：LangChain篇

模型在高层次上有两种不同类型的模型：语言模型（language models）和文本嵌入模型（text embedding models）。文本嵌入模型将文本转换为数字数组，然后我们可以将文本视为向量空间。在上面这个图像中，我们可以看到在一个二维空间中，“king”是“man”，“queen”是“woman”，它们代表不同的事物，但我们可以看到一种相关性模式。这使得语义搜索成为可能，我们可以在向量空间中寻找最相似的文本片段，以满足给定的论点。

2025-04-09 12:02:23 672

原创 LangChain 安装与环境搭建保姆级教程，手把手带你调用OpenAI与Ollama本地大模型

如果把大语言模型（LLM）比作一个强大的“智能大脑”，那么 LangChain 就像是它的“手和脚”——帮助这个大脑连接外部世界，完成更复杂的任务。LangChain 是一个用于构建智能应用的框架，它让大语言模型（如 ChatGPT、Llama、Claude 等）能够更好地记忆、思考、规划，并与各种外部工具（数据库、API、搜索引擎等）进行交互。单独使用 ChatGPT，你只能进行简单的对话；但如果你想让 AI 变得更智能，比如：记住你上次的聊天记录（记忆能力）访问数据库查询信息（数据能力）

2025-04-09 11:51:53 835

原创 DeepSeek接入个人知识库，最新安装包发布，确实可以封神了！

今天跟大家汇报下DeepSeekMine软件最新进展，同时发布最新版V6.1软件安装包。对于第一次看到 DeepSeekMine 的朋友，简单介绍一下，这是我们一直在开发的个人知识库工具，它集成了外部知识检索与大模型生成能力。

2025-04-08 21:30:00 2004

原创英伟达押注Agent新基建！AI专属搜索引擎问世

Agent背后可能需要一套与人不同的infra，这应该是目前的一个共识。随着大模型的能力持续变强，价格持续下降，重新设计AI-native的搜索算法变得可行。作为Agent的context提供者，Exa的价值将随着Agent经济的发展而放大。

2025-04-08 21:27:08 639

原创一文搞懂大模型提示工程（Text2SQL、Text2API）

将自然语言问题转化为准确的 SQL 查询*和*具体的 API 调用参数。*Text2SQL和Text2API的提示工程本质是*是***将领域知识显式化***，通过角色定义和业务知识注入*（如*数据库Schema、API文档*）*，让*模型“理解”自然语言背后的真实意图*，并***将其转化为可执行的结构化指令******，**：模型根据Schema和用户意图生成查询语句。*Text2API（文本转API调用）是什么**？

2025-04-07 11:27:05 922

原创 # Llama 4来了！DeepSeek R2、Qwen3迎来最强对手

随着DeepSeek爆火，面试中也越来越高频出现，因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练，Dual-Pipe等关键技术，力求做到全网最硬核的解析~Meta 终于发布了 Llama 4，Llama 4 是原生训练的多模态大模型，采用 MOE 架构。

2025-04-07 11:24:48 1084

原创 DeepSeek开发实战教程！DeepSeek-R1-Distill-Qwen与LangChain的本地大模型应用开发教程！

创建LLM.py# 基于本地 DeepSeek_R1_Distill_Qwen 自定义 LLM 类print("正在从本地加载模型...")print("完成本地模型的加载")generated_ids = self.model.generate(model_inputs.input_ids, attention_mask=model_inputs['attention_mask'], max_new_tokens=8192) # 思考需要输出更多的Token数，设为8K@property。

2025-04-05 10:45:00 1173

原创 Grok3 又双叒叕进化啦？？？

最近 AI 圈的节奏简直比短视频还快。今天一个爆更，明天一个官宣，每天都在上新。这不 Grok3 又双叒叕上新了，而且还卷到了图片编辑领域。与此同时，豆包这边也不声不响地迎来了大更新。

2025-04-04 08:30:00 862

原创 DeepSeek AI智能运营：重构企业效率的范式革命

本书从多个方面介绍了如何整合AI技术进行运营工作，包括AI与用户运营的融合、精细化运营策略的构建、智能内容创作助手的运用、AI驱动分析决策。读者可以通过本书学习如何利用AI处理运营工作，从而更好地满足目标受众需求，提高内容质量，做出更准确的决策，并提升工作效率。本书内容丰富实用，旨在帮助读者适应数字化时代的挑战，实现运营工作的智能化和高效化。握人工智能大模型在写作中的应用。任嘉兴专栏作家独立运营顾问三节课特邀专家讲师。

2025-04-02 10:51:51 1087

原创 GPTs+RPA赋能智慧校园：构建下一代教育智能体的技术实践

定制化GPTs（Custom GPTs）是由OpenAI推出的一种创新技术，它允许用户根据自己的特定需求和应用场景来创建定制版本的GPTs。定制化GPTs结合了用户自定义的指令、额外的专业知识以及多样化的技能，旨在为用户提供日常生活、工作或特定任务中的更多帮助和支持。

2025-04-02 10:51:05 948

原创新版DeepSeek-V3官方报告出炉：超越GPT-4.5，仅靠改进后训练

刚刚，DeepSeek官方发布DeepSeek-V3模型更新技术报告。！而且这。DeepSeek-V3-0324和之前的DeepSeek-V3。打破了之前传言该版本base模型是R2的传言。，与此前网传的685B有所出入。开源版本上下文长度为128K（网页端、App和API提供 64K 上下文）。私有化部署时只需要更新checkpoint和tokenizer_config.json（tool calls相关变动）。目前，想要体验这一版本模型，只需用户登录官方网页、APP、小程序进入对话界面后，

2025-04-01 10:52:42 1134

原创 OpenAI 的噩梦！DeepSeek V3 0324 可在 Mac Studio 上以每秒 20 个 token 速度运行

2025 年 3 月 25 日，DeepSeek 悄然发布了一种新的大语言模型，该模型已经在 AI 行业掀起了轩然大波，不仅仅由于它的强大功能，还由于其部署方式。这款 641 GB 的模型名为 DeepSeek-V3-0324，今天出现在 AI 代码存储库 Hugging Face 上。几乎没有任何公告，延续了这家公司低调发布强大产品的模式。

2025-04-01 10:38:40 313

原创智谱干了件好事儿，免费不限量，这是国内首个正经给用户使用的通用智能体

未来已来，只是分布不均。成为那个提前拥抱未来的人。如果你希望系统掌握智能体技术，不只是浅尝辄止，而是真正理解并运用这项改变世界的力量，我诚挚推荐你阅读「AI智能体红宝书」—这是我倾注心血打造的智能体学习指南，从入门到精通，一本打尽。

2025-03-31 22:19:45 760

原创 MCP、RAG、Agent之间的概念和关系，被我和AI协作的12张图总结了

RAG将信息检索与文本生成相结合，创造更准确、信息更充分的回应。

2025-03-27 11:51:32 438

原创通义QwQ-32B+Milvus，消费级显卡布满血大模型与RAG的时代来了！

最近，通义开源的QwQ-32B模型可谓是火的一塌糊涂。作为一个中型推理模型，QwQ-32B。

2025-03-27 11:46:11 737

原创可解释人工智能在工业智能诊断中的挑战和机遇：归因解释

（一）基于注意力机制的归因解释人类视觉系统在观察外界信息时，会自动聚焦于感兴趣区域并抑制不相关的信息。基于深度学习的注意力机制类似于人类视觉系统，可以从输入信息中筛选出利于模型预测的特征并赋予其更高的权重。基于注意力机制的事后可解释方法通过可视化注意力权重解释信号特征对模型决策的贡献。具体来讲，在深度网络中融入注意力机制，在训练过程中通过反向传播算法优化网络，注意力权重会自适应为输入信号的特征分配权重。

2025-03-27 11:44:55 267

原创 Energy 基于贝叶斯算法优化的CNN-LSTM神经网络的水轮机故障诊断

CNN在特征学习方面具有影响力，并且具有高度的容错性和鲁棒性。CNN是一个由输入层、卷积层（CONV）、激活函数层、池化层和全连通层（FC）组成的多层神经网络，其典型架构如图2所示。LSTM是一种改进的RNN。它学习长期依赖信息，以缓解RNN在训练过程中的梯度消失和爆炸问题。LSTM是处理时间序列数据的理想选择[49]RNN只能保持一个隐藏状态，而LSTM有更多的参数来决定存储什么信息和丢弃什么信息，基于LSTM的网络是时间序列分类和预测的理想选择。LSTM的整体结构如图3所示。

2025-03-18 10:56:41 412

原创海龟策略：量化交易的实战应用

1983年，期货大佬理查德·丹尼斯做了一场实验：他招募了23名新手（昵称“海龟”），传授一套趋势跟踪策略，并每人给予100万美元资金。5年后，这群“海龟”中最高盈利达1.72亿美元。Anderson（2000）：在国债期货和小麦市场中应用海龟交易法则，取得了超额收益，并验证了最优资产配置方法的适用性。John et al.（2004）：在美国国债期货、标准普尔500指数期货和黄金期货中进行了大量市场论证，发现海龟交易法则在美国期货市场中能够取得超额收益。他们还对模型进行了优化，进一步提升了收益。

2025-03-18 10:55:26 460

原创办公效率翻倍！如何让Word与Deepseek完美融合（保姆级教程）

Deepseek是超强大的语言模型，接入word后相当于为文档配备了一个智能高效助手，无论查找资料、优化表达、在线翻译都非常方便。效果展示：操作步骤展示：一、打开Deepseek官网，进入API平台官网：https://www.deepseek.com/二、创建一个API Keys并复制3.配置word1）新建一个wrod2)点击左上角文件3）点击选项4）勾选开发者工具5）设置信任中心6）点击开发者工具的visual basic7)插入模块8）粘贴代码。

2025-03-17 21:32:15 1079

原创 IEEE TII | 论文荐读！对比学习+领域自适应！CTPA：对比时序预测自适应方法 , 用于工业时间序列的跨领域预测

所提出的CTPA方法能够将从一个条件（有标签的源域）学到的知识转移到另一个条件（无标签的目标域）。这种方法允许在源数据和目标数据之间发现相关性和域不变表示，同时保持每个域的固有结构。图1展示了CTPA的整体框架。CTPA的神经网络架构包括一个编码器、一个预测器、一个映射模块和一个对抗判别器。源模型通过使用有标签的源域数据进行监督预训练。预训练损失函数包括预测损失和对比域泛化损失。然后，预训练好的模型被转移到目标域，并将目标模型初始化为源模型。

2025-03-17 21:29:03 703

原创 2025年大模型应用落地白皮书：企业AI转型行动指南解读（附PDF下载）

这份白皮书是《2025年大模型应用落地白皮书：企业AI转型行动指南》，由火山引擎发布，旨在为企业在大模型技术的应用落地提供指导和参考。以下是对白皮书内容的详细解读分析：核心观点• 大模型与业务深度融合：大模型技术已进入与业务深度整合的关键时期，企业正基于具体业务场景积极探索大模型的实际部署与应用潜力.• 落地周期和应用速度超预期：大模型能够大幅提升企业生产力、驱动业务创新和增长，企业实现大模型部署的周期已缩短至平均6-12个月.

2025-03-14 10:36:21 1153

原创大模型(LLM)到底是什么？和AI有啥关系？

简单科普一下，AI是人工智能，大模型是大语言模型（LLM）的缩写，大模型是AI领域的一个重要领域和分支。ChatGPT爆火之前，提到AI模型一般指的是垂直模型，比如会做翻译的AI，会下围棋的AI，会对话的AI等。传统的AI都是这种只会做特定领域事情的模型，无法像人类一样，什么都会干。如果AI什么都能干了，那叫做通用人工智能（AGI）。

2025-03-14 10:32:35 525

原创手把手教你实现自己的“Manus”：构建基于容器的多用户Agent应用【下】

继续上文（手把手教你实现自己的“Manus”：构建基于容器的多用户Agent应用【上】）来完成自己的“Manus”。再重复下我们关注的重点：编码Agent与Web Agent是主要任务工具它们需要在容器环境中执行以确保安全多用户环境，每个用户有自己的Agent与容器**构建Tool：浏览器自动化（Docker版）**这个工具的任务是把AI生成的代码在一个动态启动的容器中执行，并返回结果。它并不关心代码的目的，仅仅是纯粹的执行。OK，这就是全部工作。如果不放心，你可以单独测试这个工具。

2025-03-13 10:48:53 703

原创 OpenAI新品背后的Agent竞争，Manus威胁有多大？

整体来看，这次OpenAI的发布更像是将自家operator和deep research中的一些功能对外开放，让开发者能够更便捷地构建工作流。然而，这些更新似乎并不足以成为对Manus的有力回应。从短期发展来看，Anthropic的Claude Code未来发展反而更值得期待。

2025-03-13 10:43:03 635

原创定理解释Agent：迈向大模型定理理解的多模态解释

论文提出了一种名为TheoremExplainAgent的AI系统，用于生成多模态定理解释视频，并构建了TheoremExplainBench基准测试来评估其效果。论文题目： TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding论文链接： https://arxiv.org/abs/2502.19400。

2025-03-12 11:39:21 699

原创大模型，潜力有多大？

将大模型“装”进手机、融入供应链，带到办公室和生产线……2024年以来，不少国产大模型已经踏上和实体产业相融合的新赛道，加速多场景落地。今年《政府工作报告》明确指出，持续推进 “人工智能＋”行动，将数字技术与制造优势、市场优势更好结合起来，支持大模型广泛应用，大力发展智能网联新能源汽车、人工智能手机和电脑、智能机器人等新一代智能终端以及智能制造装备。“支持大模型广泛应用”首次被写入《政府工作报告》，为人工智能产业发展注入了强劲动力。

2025-03-12 11:31:14 913

原创最新「大模型简史」整理！从Transformer（2017）到DeepSeek-R1（2025）

语言模型」是一种「人工智能系统」，旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构，使得能够产生连贯且上下文相关的文本，应用于翻译、摘要、聊天机器人和内容生成等领域。

2025-03-10 22:03:05 1031

原创 AI大模型就业指南：大模型热门就业方向有哪些？

随着人工智能技术的飞速发展，大模型（Large Models）已成为推动行业革新的关键力量。这些模型在自然语言处理、计算机视觉、推荐系统等领域展现出卓越的性能，为求职者开辟了新的职业道路。本文将深入探讨AI大模型时代下的热门就业方向。一、自然语言处理（NLP）自然语言处理是大模型应用最为广泛的领域之一。随着BERT、GPT等预训练模型的普及，NLP工程师的需求量激增。

2025-03-10 21:37:29 1804

原创我花了5分钟，成功部署阿里QwQ-32B，秒出的感觉太爽了

Manus 昨天平地一声雷炸的圈子里的好多人都头脑发热了，官方和一些带节奏的人估计都度过了难忘的一天。今天圈子终于开始有点回归理性了。今天除了五位数的邀请码一码难求，另一边复现 Manus 项目出的飞快，连卖 Manus 的课教程都冒出来了，真快啊（不过大家还是要谨慎一点擦亮眼睛）。回到今天群聊的榜一大哥——QwQ 32B.我翻了一下聊天记录，吐槽最多的是——推题 token 太长，动辄 2、3 万字一直在推理，不出东西其实 QwQ 这个模型之前发布过一个预览版，只不过这次是正式版。

2025-03-08 11:30:25 4162

原创单显卡即可！深度解析QWQ-32B开源模型本地化部署

日前，阿里云通义千问官方宣布推出最新推理模型QWQ-32B。QWQ-32B 模型以其的“小巧”身材，实现了的卓越性能，这无疑是一个令人振奋的突破。其成功的关键，在于创新性地引入了策略。传统AI模型通常依赖于预训练和微调，这种模式在处理复杂推理任务时，往往显得力不从心。QWQ-32B 采用了独特的双阶段强化学习训练方法，模拟了人类从错误中学习、不断精进的过程。模型在初期训练中，接受基于明确结果的奖励信号，例如数学题的对错、代码的运行结果等。这使得模型能够快速掌握特定领域的专业技能。

2025-03-08 11:26:48 5051

原创一手体验首款通用Agent产品Manus - 唯有惊叹。

昨天夜里，深夜惊雷。一个新团队突然发了一个首款通用行的项目：Manus。演示在此，我人直接看麻了。看完我的第一感觉，卧槽，人类又要一败涂地了。这尼玛，就是OpenAI的DeepResearch和Claude的Computer Use的究极集合体，甚至，他还能自己写代码，直接Coding Agent。这特么是什么怪物啊。。。我预想到这一天会来，只是没想到，来的如此之早。Manus在GAIA的评分上，也非常的离谱。已经超越OpenAI的DeepResearch的了，成为GAIA评分第一。

2025-03-07 17:26:29 1104

原创现象级Manus一夜爆火！10 万的邀请码被指套壳炒作，合伙人出面澄清：从未开设任何付费获取的渠道……

AI智能体并不是大模型应用的终点，具身智能、代理式人工智能以及通用人工智能都可能是AI智能体的下一步。继DeepSeek 之后，科技圈又一个不眠之夜！3月6日凌晨，一款名为“Manus”的AI工具，迅速走红，全网刷屏。据团队介绍，Manus在GAIA基准测试中取得了SOTA（State-of-the-Art）的成绩，显示其性能超越Open AI的同层次大模型。据了解，在使用传统AI大模型时，需要用户挨个提需求，AI依次完成，随后再提需求，AI依次完成……以此类推；

2025-03-07 17:07:17 1120

原创 Manus背后的华人团队：套壳到极致，就是胜利｜甲子光年

因为没码，直奔主题，全文无尿点。Monica 公司发布的 AI Agent 智能体产品 Manus 是一款具备突破性技术的通用型 AI 代理，根据 Manus官网（https://manus.im）技术白皮书和网络公开资料，整理 Manus 核心技术和应用信息如下，欢迎讨论。Manus 采用的分工机制，模拟人类工作流程，提升复杂任务的处理效率。采用蒙特卡洛树搜索（MCTS）算法优化任务拆解效率；调用工具（如代码编写、网页爬虫），不能调用 CS 架构应用程序；

2025-03-06 20:35:34 1485

原创 Manus超详细介绍，看这一篇就够了

因为没码，直奔主题，全文无尿点。Monica 公司发布的 AI Agent 智能体产品 Manus 是一款具备突破性技术的通用型 AI 代理，根据 Manus官网（https://manus.im）技术白皮书和网络公开资料，整理 Manus 核心技术和应用信息如下，欢迎讨论。Manus 采用的分工机制，模拟人类工作流程，提升复杂任务的处理效率。采用蒙特卡洛树搜索（MCTS）算法优化任务拆解效率；调用工具（如代码编写、网页爬虫），不能调用 CS 架构应用程序；

2025-03-06 20:27:25 13276 1

原创一步步将DeepSeek R1微调成一个DeepDoctor（资深医生）

DeepSeek-R1 和 DeepSeek-R1-Zero 在数学、编程和逻辑推理任务上与 OpenAI 的 o1 性能相当。

2025-03-06 11:53:39 821

空空如也

空空如也