自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1736)
  • 收藏
  • 关注

原创 MCP很好,但它不是万灵药|一文读懂 MCP

MCP是一种开放的技术协议,旨在标准化大型语言模型(LLM)与外部工具和服务的交互方式。你可以把MCP理解成像是一个AI世界的通用翻译官,让AI模型能够与各种各样的外部工具"对话"。

2025-05-06 10:24:42 341

原创 李彦宏说的「MCP」,还有人不知道吗?

大模型的风,如今又刮到了一个新名词上:MCP。AI圈中不缺新鲜事,但这次不一样,互联网仿佛又回到了十多年前的春天。**“现在,基于MCP开发智能体,就像2010年开发移动APP。”**4月25日,百度董事长李彦宏在百度Create大会上说到。如果还没有听过MCP,但你肯定听过上一个热词:Agent(智能体)。2025年初,中国初创公司Manus的爆火,把这个名词瞬间推到了大众面前。“真·能干活的AI”,是Agent爆火的关键。

2025-05-05 15:45:07 743

原创 看完这10张动图,你会彻底理解 MCP 的架构原理!

*最近,模型上下文协议(MCP)特别火,你可能已经听说过了。今天,我们来搞懂它到底是个啥。简单来说,。就像 USB-C 提供了一个标准化的方式来连接各种配件一样,。让我们稍微深入一点,。MCP 的核心是客户端-服务器架构,一个主机应用可以连接到多个服务器。。在我们深入之前,先简单了解一下👇主机代表任何 AI 应用(比如:Claude 桌面版,Cursor),它提供了 AI 交互的环境,访问工具和数据,并运行 MCP 客户端。MCP 客户端在主机内部运行,以实现与 MCP 服务器的通信。

2025-05-05 15:44:10 247

原创 从零开始的 MCP 开发

我们迎来万能插头?在 AI 提效上,我们小组的每个人都有自己的独特方式,作为一个沉醉在业务开发+业务样式改版的终端开发,再加上我的 CSS 功底基本上样式就是靠试,每次在 UI 还原部分都是很是痛苦。这样,在团队内部同学完成了 Done 插件转React 代码并完成 OneDay Web 端落地后,我就在想,是否可以在插件端实现一样的能力,就这样 MCP 的能力自然就进入我的视野了。先看一下效果:从零开始的 MCP 开发阿里云开发者已关注已同步到看一看[写下你的评论](javascript:😉。

2025-05-05 15:40:57 405

原创 一文讲透MCP的原理及实践

MCP (Model Context Protocol) 代表了 AI 与外部工具和数据交互的标准建立。通过本文,我们可以了解到MCP的本质、价值、使用与开发。MCP是什么。

2025-05-05 15:31:20 479

原创 热门 MCP Server一键部署

全球 AI 开发者们热议“MCP”(Model Context Protocol)。尽管这一协议在2024年由Anthropic发布时并未引起广泛关注,但2025年初,Cursor宣布集成MCP迅速将其带入开发者的视野,3月Manus的爆发更是加速了MCP的普及。而就在3月27日,OpenAI正式宣布其Agent SDK全面支持MCP协议,这一举措标志着MCP将会成为该领域的实施标准,必将重塑AI应用的开发与交互方式。

2025-05-05 15:30:04 664

原创 MCP (模型上下文协议)架构设计深度剖析

最近,AI Agent 和外部工具之间的互动变得越来越流行。,大家都在努力让 AI 模型能更有效地调用外部的功能。不过,目前这些集成方式还是比较分散,开发者需要为每个服务手动设置接口、处理认证和逻辑,而且不同平台之间还互不兼容,确实挺麻烦的。就在这种情况下,Anthropic 在2024年底推出了一个叫做模型上下文协议(Model Context Protocol,简称 MCP)的新东西。

2025-05-05 15:29:32 279

原创 Agents和Workflows孰好孰坏,LangChain创始人和OpenAI杠上了

这部分会提供一些基础信息,帮助大家更好地理解后续内容。

2025-05-05 15:29:02 520

原创 福布斯2025 AI 50榜单:AI Agent全面崛起,应用层才是2025真正的主战场

福布斯》发布了 2025 年的年度 AI 公司 50 榜单,该榜单由福布斯、红杉资本和 Meritech Capital 联合制作。前几年,AI 应用主要还是用于回答问题或根据指令生成内容,而今年的创新则侧重于 AI 实际完成工作。AI 正从简单地响应提示,转向解决问题和完成整个工作流程。《福布斯》还有详细分析,Founder Park 编译了部分内容。榜单评选流程:聚焦于私营企业,公开征集提名,以及 Meritech Capital 对初创企业进行定向邀约。申请无需任何费用。

2025-05-05 15:26:56 371

原创 开源 Remote MCP Server 一站式托管来啦!

从事实标准走向真正标准MCP(Model Context Protocol)协议的生态发展正以前所未有的速度推进。近期,两大关键事件标志着MCP已从事实标准迈向行业标准:一方面,OpenAI正式宣布跟进Anthropic的MCP协议,另一方面,Anthropic发布了新版本MCP协议,在Remote MCP Server场景下实现了显著改进。OpenAI CEO Sam Altman在社交媒体上确认,OpenAI将在旗下产品(包括ChatGPT桌面应用)中集成Anthropic的MCP协议。

2025-05-05 15:15:09 764

原创 大模型上下文协议 MCP 带来了哪些货币化机会

打开这篇文章的读者,都有一致的观察,2月中旬开始,MCP 火了。我们来看看反映开源项目热度的两个关键指标,GitHub Star 和搜索指数。Star 从2月开始,加速增长:微信指数,从2月开始,出现流量突增:从社群的交流看,预计4月,国内会集中出现一批 MCP 中间件提供商,包括 Server、Client、Server hosting、Registy、Marketplace 等,在各自原有的优势领域进行延展。

2025-05-05 15:14:32 528

原创 一文剖析大模型、RAG、Agent、MCP、Function Calling、知识库、向量数据库、知识图谱、AGI 的区别和联系

Function Calling 是一种强大的工具,它为大语言模型提供了与外部工具和服务交互的能力,从而解决了大模型知识更新停滞的问题。然而,它的局限性在于缺乏跨模型的一致性和平台依赖性。尽管如此,Function Calling 仍然是一个重要的技术,尤其是在需要快速实现特定功能时。未来,随着技术的不断发展,我们期待看到更多能够克服这些局限性的解决方案。

2025-05-05 15:13:36 538

原创 大模型上下文协议 MCP 带来了哪些货币化机会

打开这篇文章的读者,都有一致的观察,2月中旬开始,MCP 火了。我们来看看反映开源项目热度的两个关键指标,GitHub Star 和搜索指数。Star 从2月开始,加速增长:微信指数,从2月开始,出现流量突增:从社群的交流看,预计4月,国内会集中出现一批 MCP 中间件提供商,包括 Server、Client、Server hosting、Registy、Marketplace 等,在各自原有的优势领域进行延展。

2025-05-05 15:12:01 150

原创 MCP:跨越AI模型与现实的桥梁

根据 Claude 3.7 Sonnet 系统卡,Claude 3.7 Sonnet 是 Claude 3 系列的混合推理模型,首次引入“扩展思考”模式。它是 Anthropic 迄今最智能的模型,特别擅长编码任务,并具有 200K 的上下文窗口。

2025-05-05 15:11:04 254

原创 如何0代码将存量 API 适配 MCP 协议?

MCP 的发展速度之快,似乎超出了大部分人的想象。今年2月,Cursur、Winsurf、Cline 均开始引入 MCP,近日 OpenAI 宣布支持 MCP,国内百度地图、高德地图陆续发布 MCP Server,还有一众非常活跃的提供 MCP 托管和中间件服务的供应商,MCP 生态正呈现越加丰富和成熟的发展态势。虽然 AI 在短期内依旧面临 ROI 的考验,但几乎所有人都不会怀疑他的未来,都不希望错过这一场“军备竞赛”。

2025-05-05 15:09:15 204

原创 谁是MCP 的 AI 好搭档?

随着 AI 技术的飞速发展,MCP(模型上下文协议) 逐渐崭露头角。这项由 Anthropic 公司(Claude 的创造者)于 2024 年 11 月推出的开放协议,正在重新定义 AI 与数字世界的交互方式。这项开放协议不仅让 AI 突破传统对话边界,更赋予其执行现实任务的能力,堪称人工智能向"行动智能体"进化的里程碑。****从 LLM 到 MCP 的进化之路从传统 LLM 到 MCP 的进化之路,本质上是一场关于数据交互安全的范式革命。

2025-05-05 15:08:45 483

原创 985硕士搞Java还是大模型?

Java就算了吧,太卷了,尤其现在大环境下,更卷了。连外包要求本科了,还要求经验,经验再多又不行了,因为触碰35+红线了。。。加上现在正在吃掉,也就是说Java的话你一毕业就很难以0经历纯小白的姿态进入职场。这块肯定是风口,热度和机会都比Java强。但是算法的话还是算了吧,你去看看那些大厂招聘,清一色要求顶会论文+名校,现在这行情,要是没个PhD头衔,连训练模型的显卡都摸不着。国内真正有完整训练能力的团队,掰着手指头都能数过来,全是头部大厂和那几个AI独角兽。别说训练了,现在连调参岗都卷成麻花。

2025-05-04 12:54:57 639

原创 公司要训练一个70B大模型,我快分裂了!

做大模型相关的项目,会有这样的情形:领导交给你一个任务,说我们要微调出一个 70B 的领域大模型,需要多少硬件资源,并且预估一下训练时间,xxx 你来列一个清单,我去汇报。要回答这个问题,就需要弄明白 train 这个模型到底需要多少张 GPU 卡?今天我们就来聊聊:如何估计 LLM 的训练资源?这里着重分析参数、梯度和优化器状态的显存占用,中间激活的显存占用后面会详细介绍。训练大模型时通常会采用,并用来加速训练,基于这个前提分析显存占用。

2025-05-04 12:51:30 670

原创 校招大厂期待你的大模型经历长什么样子?可以这么准备!

首先我们是业务部门不是大模型基座。业务大模型岗位我们核心考察两个点,一个是基础知识,一个是项目,两个点都是必须项,大模型没有实践基本上很难入门。对于这两个点,我们期望你有的知识储备如下。

2025-05-04 12:49:20 477

原创 大模型 Agent 是不是就是各种 Prompt 的堆叠?

作者:北方的郎链接:https://www.zhihu.com/question/1894891236617332066/answer/1897665876154622135来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。现在常见的Agent,包括Manus大部分都是LLM+Wrapper、Function Call,MCPetc,不过未来未必。下面是现在最流行的 5 种Agent 设计模式。让我们在下面了解它们!

2025-05-04 12:44:39 498

原创 Self-Supervised Learning 超详细解读 (目录)

1.1 数据增强1.2 通过Encoder获取图片表征1.3 预测头1.4 相似图片输出更接近1.5 对下游任务Fine-tune。

2025-05-04 12:37:07 710

原创 大模型超详细解读 (目录)

(每篇文章对应一个Section,目录持续更新。Section 1:多模态超详细解读 (一):CLIP:大规模语言-图像对比预训练实现不俗 Zero-Shot 性能1 CLIP:大规模语言-图像对比预训练实现不俗 Zero-Shot 性能(来自 OpenAI)1.1 背景和动机1.2 自然语言的监督1.3 CLIP 的数据集1.4 CLIP 的预训练方法1.5 CLIP 的模型选择1.6 零样本迁移 (Zero-Shot Transfer) 实验结果。

2025-05-04 12:33:11 896

原创 Vision Transformer, LLM, Diffusion Model 超详细解读 (原理分析+代码解读) (目录)

(每篇文章对应一个Section,目录持续更新。Section 1:视觉 Transformer 基础1 一切从 Self-attention 开始1.1 处理 Sequence 数据的模型2 Transformer 的实现和代码解读 (NIPS2017)(来自Google Research, Brain Team)2.1 Transformer 原理分析2.2 Transformer 代码解读。

2025-05-04 12:27:23 652

原创 大模型微调到底有没有技术含量,或者说技术含量到底有多大?

我教你用ChatGPT提供的接口做微调,几分钟就能上手。我用ChatGPT提供的API做过微调[1],一共跑了138轮,最后面的loss降的还算平稳。(具体操作方法在文末)最后面花了0.09美元。我想要实现的是让ChatGPT输出的语气语调要带有「道家思想」,下面是我之前做的测试,你可以看到。我问它「如何应对压力?经过微调后的ChatGPT给我的回答:应对压力要心无杂念。庄子说”无忧无虑,何须畏忧“。

2025-05-04 12:15:04 311

原创 大模型微调总结

最近,深度学习的研究中出现了许多大型预训练模型,例如、ChatGLM-130B 等,这些模型可以在多种自然语言处理任务中取得优异的性能表现。而其中,ChatGPT 模型因为在对话生成方面的表现而备受瞩目,成为了自然语言处理领域的热门研究方向。然而,这些大型预训练模型的训练成本非常高昂,需要庞大的计算资源和大量的数据,一般人难以承受。这也导致了一些研究人员难以重复和验证先前的研究成果。为了解决这个问题,研究人员开始研究 Parameter-Efficient Fine-Tuning (PEFT) 技术。

2025-05-04 12:05:37 783

原创 图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读

智能体(Agent)与环境(Environment)强化学习中两个实体的交互:状态空间S:S即为State,指环境中所有可能状态的集合动作空间A:A即为Action,指智能体所有可能动作的集合**奖励R:**R即为Reward,指智能体在环境的某一状态下所获得的奖励。在 t 时刻,环境的状态为 St ,达到这一状态所获得的奖励为 Rt智能体观测到 St 与 Rt ,采取相应动作 At智能体采取 At 后,环境状态变为 St+1 ,得到相应的奖励 Rt+1。

2025-05-04 12:03:37 846

原创 AI 工具的出现是否会让测试工程师失业?。

最近和几个大厂的测试负责人聊天,大家不约而同提到一个现象:以前团队里最资深的人突然开始学Python了。这种魔幻场景让我想起十年前,当Selenium刚普及时,那些坚持手工点按钮的测试员被会写脚本的同行碾压的往事。前几天参与某电商平台的秒杀活动测试时,我亲眼见证了AI的「暴力美学」。原先需要20人天的全链路压测,用DeepSeek+RPA工具组合,3小时就完成了从流量建模到异常注入的全过程。

2025-05-03 19:34:37 624

原创 利用一张GPU卡动手实践:从零开始蒸馏小模型

如何使用公有云 GPU 执行完整的知识蒸馏流程;如何加载并构建一个蒸馏任务的数据管道;如何用 LoRA 技术高效微调小模型;如何训练并评估学生模型效果;这种从“生成数据 → 蒸馏训练 → 模型部署”的流程,是未来 LLM 小模型落地的重要方向。我们可以动手实践更进一步理解了知识蒸馏的意义,并能将其应用到自己的项目中。

2025-05-03 19:29:47 665

原创 MiniMind:2小时完全从0训练26M的小参数GPT

大语言模型(Large Language Model, LLM)的出现引发了全世界对AI的空前关注。无论是ChatGPT、DeepSeek还是Qwen,都以其惊艳的效果令人叹为观止。然而,动辄数百亿参数的庞大规模,使得它们对个人设备而言不仅难以训练,甚至连部署都显得遥不可及。打开大模型的“黑盒子”,探索其内部运作机制,多么令人心潮澎湃!遗憾的是,99%的探索只能止步于使用LoRA等技术对现有大模型进行少量微调,学习一些新指令或任务。

2025-05-03 19:26:02 682

原创 17.1K star!两小时就能训练出专属于自己的个性化小模型,这个开源项目让AI触手可及!

🔥「只需一张消费级显卡,2小时完成26M参数GPT训练!🌟「从零构建中文大模型的最佳实践指南」🚀「兼容OpenAI API,轻松接入各类AI应用平台」MiniMind通过优化算法和内存管理,实现相比传统方法**300%**的训练速度提升。支持从26M到1B参数规模的模型训练。采用专家混合架构,在145M参数量时即可达到传统架构1B参数模型的推理效果。通过动态量化技术,26M模型可压缩至12MB,流畅运行在Android/iOS设备。

2025-05-03 19:10:41 572

原创 全民AI时代:手把手教你用Ollama & AnythingLLM搭建AI知识库,无需编程,跟着做就行!

在本地电脑上跑大语言模型(LLM),已经不是什么高科技操作了。随着技术的迭代,现在利用Ollam和AnythingLLM就可以轻松构建自己的本地知识库,人人皆可上手,有手就行。过往要达成这一目标,可是需要有编程经验的。首先得了解一下背后的原理。大概就是三步走:一是LLM,大语言模型,懂得怎么处理自然语言。二是嵌入模型,它的工作就是把复杂的数据简化,转化成易于处理的格式。最后是向量数据库,专门存储和管理那些转化后的数据。说实话,虽然文章有点长,但里面多是附加的资源和细节,实际上手操作真的挺简单的。

2025-05-03 19:09:53 764

原创 大模型在金融行业的应用场景和落地路径_汇丰银行信贷审批场景大模型应用实践

这是最好的时代,也是最坏的时代。尽管大模型技术在金融领域具有巨大的应用潜力,但其应用也面临不容忽视的风险和挑战。本文将深入研究大模型在金融领域的数据隐私和安全风险、模型可解释性和透明度、监管和合 规要求,梳理中国、美国、欧洲等地 AIGC 技术的应用规则,探索对应的风险管理和应对策略。一、 大模型在金融领域的 5 个典型应用场景当前,金融科技已经从“立柱架梁”迈入了“积厚成势”新阶段,越来越多的金融机构积极使用数字技术来为金融血脉注入全新能量。

2025-05-03 18:59:54 1128

原创 ChatGPT With Prompt:超强AI 提示词库,值得你拥有!

项目系统地整理了多个经过验证的优质 Prompt 模板,涵盖了编程、写作、设计等多种不同的应用场景。通过这些模板,ChatGPT 可以轻松地转变为专业的顾问,为用户提供高质量的服务。

2025-05-03 18:50:29 216

原创 Deep Lake:人工智能时代的数据湖_deeplake

是一款由 Activeloop 开发的开源深度学习数据湖,旨在解决深度学习数据管理的挑战。它提供高效的多模态数据管理、类似 Git 的版本控制、强大的查询和可视化功能,并与 MLOps 生态系统无缝集成,助你轻松驾驭海量数据,加速模型训练!

2025-05-03 18:49:36 806

原创 我的公众号接入了DeepSeek-R1模型,成为了一个会深度思考的强大.NET AI智能体!_深度思考r1模型大小是多少

前不久腾讯元器宣布接入满血版 Deepseek R1 模型,模型免费使用且不限量,为智能体开发提供更多样化的模型选择,带来更丰富的智能体功能和玩法。今天咱们一起来把我公众号的.NET AI智能体模型从腾讯混元大模型-turbo(32k)切换为DeepSeek-R1(32k),使其拥有深度思考功能变得更智能。腾讯元器是腾讯混元大模型团队推出的智能体开放平台,开发者可以通过插件、知识库、工作流等方式快速、低门槛打造高质量的智能体,支持发布到QQ、微信等平台,同时也支持API调用。

2025-05-03 18:48:49 569

原创 CTO技术分享:大模型应用落地范式,如何让模型真正成“专家”?

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。未必然采用的方法是**“无感知或半有感知的跟岗学习”**,即把大模型功能嵌入到业务系统中,然后记录专家或业务人员在使用过程中的所有交互和反馈。**专家构建奖励模型:**将模型与专家进行对话或让模型对案例进行解答,然后由专家打分或纠正模型回答,持续迭代训练,优化模型对复杂问题的推理能力。**预训练:**在已有大模型的基础上,采用领域数据进行二次训练,让模型在专业领域先“入门”。

2025-05-03 18:48:16 783

原创 大模型微调(Fine-tuning)原理详解与实际业务场景分析_值得尝试fine-tuning大模型的情况有哪些

在人工智能迅猛发展的今天,大型预训练语言模型(如GPT、BERT等)已成为自然语言处理领域的核心技术。然而,这些"通用"模型在面对特定业务需求时往往表现不尽如人意。本文将深入探讨大模型微调(Fine-tuning)的技术原理,详细分析其工作机制,并重点阐述在实际业务场景中何时需要微调而非直接使用基础模型。大模型微调(Fine-tuning)是指在预训练好的大型语言模型基础上,使用特定领域或任务的数据集进行进一步训练,使模型适应特定需求的技术过程。

2025-05-03 18:44:50 582

原创 在Qwen3-235B-A22B和Qwen3-30B-A3B等MoE(混合专家)模型中,网络的不同部分阿里Qwen3震撼发布!开源生态再升级,开启通用人工智能新纪元

这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。轻量级模型的训练则涉及对基础模型的蒸馏。更重要的是,这些模型完全开放试用,开发者可以自由调用,打造惊艳的应用。大模型的发展是当前人工智能时代科技进步的必然趋势,我们只有主动拥抱这种变化,紧跟数字化、智能化潮流,才能确保我们在激烈的竞争中立于不败之地。

2025-05-03 18:44:06 724

原创 深夜突袭,阿里Qwen3登顶全球开源王座!暴击DeepSeek-R1,2小时狂揽17k星

这次,阿里一口气开源了8款混合推理模型,包括2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款稠密模型,均采用 Apache 2.0许可。如下表所示,Qwen3-1.7B/4B/8B/14B/32B-Base可以媲美Qwen2.5-3B/7B/14B/32B/72B-Base,以更小的参数量达到更大模型的水平。· 各种尺寸的稠密模型和混合专家(MoE)模型,包括0.6B、1.7B、4B、8B、14B、32B以及30B-A3B和235B-A22B。

2025-05-03 18:43:11 532

原创 DeepSeek+本地知识库:真的太香了

整个操作下来,AnythingLLM 的体验没有cherry好。AnythingLLM就像一个包壳的web应用(后来查了下,确实是)。AnythingLLM 得具备一定的程序思维,给技术人员用的。非技术人员还是使用cherry吧。作为喜欢折腾的开发人员,我们可以结合dify使用。

2025-05-02 11:45:41 750 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除