AI大模型测试-CSDN博客

原创 AI产品经理的基础知识：一篇文章搞懂Transformer以及扩散模型

这篇文章详细介绍了transformformer以及扩散模型的原理以及来源，我认为作为AI产品经理，这些基础概念一定要知道，否则就很难去考虑哪一类AI模型更加适合自己的用户场景，从而进行产品框架设计。

2025-05-31 08:00:00 426

原创手把手教你使用 LLM Graph Transformer 构建知识图谱，学不会你来找我！！

在本文中，我们探讨了 LangChain 的 LLM Graph Transformer 及其用于从文本构建知识图谱的双重模式。基于工具的模式是我们的主要方法，利用结构化输出和函数调用，减少了提示工程，并允许属性抽取。另一方面，当工具不可用时，基于提示的模式非常有用，依靠少量示例来指导 LLM。然而，基于提示的抽取不支持属性抽取，也不会产生孤立的节点。

2025-05-30 11:29:07 667

原创 AI Agent & 多智能体系统：“单兵作战”到“团队协作”的进化，收藏这一篇就够了！！

今天来介绍下AI Agent相关的知识，本篇文章主要分为三个部分：AI AgentAgent Framework（LangGraph & Google ADK）Multi-Agent SystemAI Agent（人工智能体）是一种具备自主思考、规划和行动能力的智能系统，它主要包括三个部分：LLM大模型、Tools工具、Prompt提示词

2025-05-30 10:32:42 452

原创 Qwen3技术报告重点：Qwen3如何强化推理能力？看完这篇你就知道了！！！

大模型的推理能力一直是衡量其智能水平的关键指标。近期，Qwen3系列模型在这方面取得了显著突破。通过对Qwen3技术报告的解读，我们可以窥见一套完整的推理能力提升体系。本文将以推理视角，剖析Qwen3推理能力提升的关键环节。

2025-05-29 14:32:00 582

原创 AI编程神器DeepSeek R1升级！程序员3秒钟沉默背后的真相

你有没有注意到，最近程序员群体突然安静了三秒钟？不是因为代码出了bug，而是因为他们发现自己可能正站在历史的转折点上。这个转折点的名字叫 DeepSeek R1。这不只是一次升级，这是一次权力转移我见过很多技术的兴衰。从最早的汇编语言到高级语言，从桌面软件到云计算，每一次重大技术变革都会重新定义"谁能做什么"。但 DeepSeek R1 的这次静默升级，却让我想起了一个更深刻的问题：当机器开始比人类更懂得编程逻辑时，程序员的价值到底在哪里？

2025-05-29 11:41:10 546

原创程序员平均薪资出炉！你拖后腿了吗？

随着人工智能、大数据等新领域的发展，程序员的薪资将继续保持高位。同时，企业对程序员的要求也将更高，所以程序员们需要不断提升综合能力，积极拥抱AI，在技术深度和业务理解力上实现突破，让自己拥有更强的的职场竞争力，拥抱更高的薪资！有数据显示，懂AI的人才薪资涨幅达到30%！从DeepSeek、小米等企业释放出来的招聘信息中，我们也可以看到，AI人才薪资又向前迈了一大步，即使是实习生，也可以月入过万！

2025-05-28 14:54:59 628

原创 AI赋能教育教学：从五大维度分享DeepSeek应用实践经验

“当AI能3分钟生成教案、实时捕捉学生情绪、自动生成科研论文框架时，教师的核心竞争力已转向如何驾驭技术实现教育创新。”作为某重点大学计算机科学与教育技术交叉学科教授，在过去一年中深度应用DeepSeek大模型，实现了教学、科研与管理效能的全面提升。以下从五大维度解析她的实践经验，为教育工作者提供可复用的AI融合路径。

2025-05-28 11:17:47 808

原创【AI大模型实战】GRPO+Qwen2.5，7B大模型微调实战！看到就是赚到！！

这是国外技术大佬介绍如何训练领域特定模型的文章，作者使用 GRPO 微调 qwen2.5-coder-7B，实现了一个生成日程表的大模型。01问题定义给模型提供一份事件列表（包含开始和结束时间），并告知它哪些事件是高优先级的。目标是创建一个日程安排，使所选事件的总加权时长达到最大化。在这种设定下，高优先级事件的权重为 2，普通事件的权重为 1。

2025-05-27 19:13:42 659

原创拿下36K的AI产品经理offer，他是如何实现职业转型的？看完这一篇你就懂了！！

随着人工智能技术的飞速发展，AI产品经理这一职位逐渐成为科技行业的香饽饽。不少技术专业的应届生、技术岗、行业经验资深产品经理纷纷转型AI赛道。说白了就是经验与岗位要求不匹配。想转AI产品经理，你要知道AI产品经理分类有哪些？能力模型是什么？工作流程有哪些？然后个人优势和过往经验选择适合领域进行专业提升，提升匹配度。人人都是产品经理 x 起点课堂根据市场需求总结了3类AI产品经理能力模型。看看你适合转哪一种AI产品经理

2025-05-27 18:31:03 811

原创【小白教程】Ollama本地部署任意大模型（适合企业/个人），看到就是赚到！！

5分钟，教你搭建专属AI助手！不管是个人还是企业，都能轻松部署DeepSeek、Gemma3、Qwen3等主流大模型。本地运行更安全，还能用手机随时访问，提升 10倍生产效率！

2025-05-26 14:51:01 837

原创【AI大模型知识库】企业级RAG实施指南，企业知识库落地一定不要错过，长文建议收藏

RAG系统配置最佳实践与企业选型指南，企业知识库落地避坑宝典企业级RAG系统配置与框架选型：从需求到实施RAG框架在企业中的深度应用与选型策略企业如何成功实施Cherry Studio、AnythingLLM和RAGFlow？一份指南明白企业级RAG实施指南，想要成功实施RAG 不要错过

2025-05-26 11:57:08 733

原创【AI大模型】MCP 协议为何不如你想象的安全？从技术专家视角解读！收藏这一篇就够了！！

模型上下文协议（Model Context Protocol，MCP）[1]已迅速成为事实意义上的第三方数据源和工具与 LLM 驱动的聊天对话及智能体整合的标准。虽然互联网上充斥着各种可以通过该协议实现的炫酷应用场景，但同时也存在着很多漏洞和限制。

2025-05-25 08:00:00 686

原创【AI大模型大厂面试真题】小米二面问我PagedAttention，5分钟凉了...

最近有同学在面试中被问到了 vLLM 的 PagedAttention，这篇文章带大家了解其核心原理。

2025-05-24 14:43:31 879

原创 LLM的“记忆”与“推理”该分家了吗？一种全新的训练范式，彻底厘清思考流程

在大型语言模型（LLMs）横扫NLP任务的时代，模型的推理路径却依然是一团迷雾。面对复杂问题，LLMs是凭“记忆”说话，还是靠“推理”得出结论？我们能不能把这两者解耦，从而获得更可控、更可靠的模型行为？

2025-05-24 11:53:24 592

原创腾讯大模型战略首次全景亮相！智能体平台重磅上线，从“落地可用”到“智能协同”

智能体的开发门槛，又又又被打下来了！昨天，腾讯云在他们的AI产业应用峰会上，正式上线了全新的智能体开发平台，率先在行业内实现零代码配置多智能体协同构建。除了上线智能体开发平台，腾讯云也对从AI Infra到模型到应用的整个体系来了波全面升级。包括混元系列大模型，也迎来了重磅更新。

2025-05-23 14:07:54 646

原创连大模型的推理机制都讲不清，别和人说你懂AI！建议收藏起来慢慢学！！

这篇文章，不讲模型结构的复杂数学、不谈抽象难懂的技术术语，我们只带你看清一件事：大型语言模型（LLM）到底是怎么一步一步“想清楚”你问题的，然后又是如何推理出一个看似“有逻辑”的答案。读懂这套推理机制，你就不只是一个会用AI的人，而是真正能驾驭AI的人。

2025-05-23 11:12:53 536

原创吴恩达吹爆懂AI的产品经理：下一个风口，比程序员还吃香

吴恩达 (Andrew Ng) 老师发了一篇文章，他在文章中指出，随着软件开发，特别是原型开发的成本不断降低，对能够决定“构建什么”的人才需求将大幅上升。他特别强调了 AI 产品经理 (AI Product Managem)ent) 的光明前景

2025-05-22 14:17:50 698

原创全球首家“AI诊所”落地沙特，中国科技企业让AI从“辅助”走向“主诊”

这不是中国智慧医疗技术简单的“出海”，而是一场带有探索意味的实验。它为未来全球各国——尤其是面临医疗资源紧张的国家——提供了一种可能的解决方案。AI诊所不是终点，只是开始。但它让我们真正看见了一种未来：AI，不再只是工具，也不再只是陪伴，而是可以承担起一部分医疗责任的“新医生”。

2025-05-22 11:36:59 461

原创你真的了解大模型怎么“调”？四种主流LLM微调方法详解！

今天我们就来聊聊四种LLM微调方法，帮你高效优化模型，轻松应对各种场景。这四种方法分别是：Full-tuning（全量微调）、Freeze-tuning（冻结部分参数微调）、LoRA（低秩适应）和QLoRA（量化低秩适应）。它们各有绝活，能在不同情况下帮你省时省力又保证效果。接下来，我们就用大白话把它们讲明白。

2025-05-21 15:10:46 472

原创智能体落地“三驾马车”问世：MCP调优工具+A2A协作+AG-UI协议解读

你可能听过MCP、A2A、ANP，今天我想和大家聊聊一个在智能体（Agent）领域非常有意思的话题——AG-UI协议。这个协议由CopilotKit推出，是一套开源的标准化方案，专门用来解决后端Agent和前端UI之间的交互问题。如果你对智能体应用感兴趣，或者正在用LangGraph、CrewAI等工具开发多步骤工作流，那这篇文章一定能给你一些启发。

2025-05-21 12:01:28 572

原创数据治理 + 知识库 + AI大模型：三步终结企业 “数据内耗”，打造智能决策闭环

一、为什么企业总在 “数据内耗”？三大困局背后的真相**数字化转型喊了十年，但多数企业仍陷在三大泥潭：

2025-05-20 14:30:48 675

原创【AI大模型微调实战】Unsloth 微调 Qwen3 实战教程来了！全程干货，小白也能轻松学会！！

unsloth微调Qwen3模型提供显著优势：训练速度提高2倍，VRAM使用减少70%，支持8倍长的上下文。Qwen3–30B-A3B仅需17.5GB VRAM即可运行。unsloth的Dynamic 2.0量化技术保证了高精度，同时支持原生128K上下文长度。Qwen3模型具有思考模式和非思考模式，适用于不同复杂度的任务。微调后的模型可用于法律文档分析、定制知识库构建等领域，能够处理特定领域查询并保持上下文，优于纯检索系统。unsloth支持4bit/16bit的QLoRA/LoRA微调，适用于2018年

2025-05-20 11:17:37 740

原创 90%产品经理不知道：AI时代的产品设计逻辑正在悄然发生改变

随着AI浪潮席卷而来，无论是刚入行的新手，还是寻求突破的资深从业者，都敏锐地将目光投向了AI产品。在AI技术的赋能下，产品设计的逻辑也悄然发生了一些变化。

2025-05-19 22:24:05 681

原创 AI大模型工程师薪资翻3倍！普通人怎么上车？看完这一篇你就懂了！！

“年薪百万，企业抢破头都招不到人！”——这真不是夸张。最近两年，AI行业杀出一个“神仙岗位”：大模型训练工程师。从ChatGPT到Sora，全球科技公司疯狂砸钱抢人，应届生年薪60万起步，资深大佬轻松百万。这岗位为啥这么火？没经验的小白能转行吗？怎么学？今天一篇说透！

2025-05-19 21:30:28 800

原创 DeepSeek+工业大模型赋能制造业数实融合的三种方式，小白教程，收藏这一篇就够了！！

制造业正面临着深刻的变革，数实融合已成为制造业转型升级的关键路径。工业大模型通过其强大的通用性，为制造业提供了一种全新的赋能方式本文重点介绍 DeepSeek+工业大模型赋能制造业数实融合的三种方式。‍‍‍在当今科技飞速发展的时代，制造业正面临着深刻的变革，数实融合已成为制造业转型升级的关键路径。DeepSeek+工业大模型，为制造业数实融合提供了强大的技术支撑，主要通过以下三种方式发挥重要作用。

2025-05-19 21:06:40 590

原创 DeepSeek最新离线版下载+安装教程（本地部署）+无限制大模型，收藏这一篇就够了！！

DeepSeek-R1 发布，性能对标 OpenAI o1 正式版今天，我们正式发布 DeepSeek-R1，并同步开源模型权重。DeepSeek-R1 遵循 MIT License，允许用户通过蒸馏技术借助 R1 训练其他模型。DeepSeek-R1 上线 API，对用户开放思维链输出，通过设置 model='deepseek-reasoner' 即可调用。DeepSeek 官网与 App 即日起同步更新上线。

2025-05-18 08:00:00 1253

原创【AI大模型】一文详解 Vision Transformers 原理与应用，收藏这一篇就够了！！

Vision Transformers (ViTs) 代表了计算机视觉领域的突破性变革，它利用了彻底革新自然语言处理的自注意力机制。与依赖分层特征提取的传统卷积神经网络(CNN) 不同，ViT 将图像视为更小块的序列，从而能够捕捉视觉数据中的全局关系和长距离依赖关系。这种独特的方法在图像分类、目标检测和生成建模等任务中展现出卓越的性能，使 ViT 成为推进人工智能驱动图像分析的强大工具。其多功能性和可扩展性使其成为不断发展的计算机视觉领域中的一项关键创新。

2025-05-17 08:00:00 576

原创 AI大模型技术在企业如何落地？这些落地场景值得一看！

大模型，我们说类似于一个斯坦福的大学生，拥有非常丰富的知识和理解能力。从大模型本身的具体能力看，主要分为（如下图）：语言理解（意图理解）、文本总结、文本生成、Function Call 和写代码的能力。

2025-05-16 14:07:04 816

原创 Java程序员如何借力AI突围：从CRUD到智能开发的转型指南

Java的困境与AI的机遇Java作为企业级开发的常青树，长期以来支撑着金融、电商、大数据等核心系统。但随着低代码、云原生和AI的崛起，传统Java开发（尤其是CRUD业务）逐渐陷入内卷：薪资增长放缓、技术迭代压力大、竞争激烈。与此同时，AI（尤其是生成式AI和机器学习）正在重塑软件开发的形态

2025-05-16 11:17:29 740

原创 DeepSeek 大模型基本认知(V3、R1、Janus、VL2 简单介绍以及本地部署)

DeepSeek-V3 是 DeepSeek-V2 之后有一个新的版本，一个超大规模的 “混合专家”模型（MoE），671B 参数，激活 37B，在 14.8T token 上进行了预训练。它专为高效训练和推理设计，既能生成高质量文本，又能节省计算资源。用更低的成本（时间和算力）实现顶级性能，对标甚至超越闭源模型（如 GPT-4）。通俗的话讲专注文本任务，规模更大、效率更高,节省资源

2025-05-15 14:27:58 599

原创【AI大模型】在私有数据上进行智能搜索和分析的工具DeepSearcher

DeepSearcher 结合推理LLMs（OpenAI o1、o3-mini、DeepSeek、Grok 3、Claude 3.7 Sonnet、QwQ 等）和向量数据库（Milvus、Zilliz Cloud 等）以对私有数据进行搜索、评估和推理，提供高度准确的答案和全面报告。此项目适用于企业知识管理、智能问答系统和信息检索场景。

2025-05-15 11:50:28 804

原创爆火MCP的来时路：LLM开启超进化，从函数调用到通用上下文协议

传统大语言模型（LLM）的短板我们先来简单回忆下 LLM 的基本能力：LLM 是近年来自然语言处理领域的革命性成果，它们通常基于深度神经网络+Transformer 架构，通过海量语料训练形成的参数化知识表征系统，其核心能力体现在语义理解与序列生成两个层面。LLM 的核心目标就是理解和生成自然语言，例如ChatGPT是基于自回归的方式进行文本生成，在约定范式下能够实现符合人类对话范式的交互输出，但是传统的 LLM 有两个短板严重限制了模型的能力：

2025-05-14 14:27:12 1101

原创 AI大模型LLM 行业科普和择业建议：选基座or应用？看完这一篇你就懂了！！

目前的大模型工作，大致可以分为三种：大模型基座，大模型应用，大模型业务。大模型基座：纯粹的模型工作，以“最好的训练数据、最好的模型结构、最稳定的训练框架、最高效的训练算法、最前沿的技术难点”为目标；大模型应用：定向增强大模型的某些基础能力，让大模型能更好的落地；大模型业务：更准确的说法是“业务大模型”，这类工作是以业务为基，大模型为辅的，也就是我们老生常谈的“大模型加持下的搜广推”。

2025-05-14 11:24:36 475

原创推理模型越来越强，大模型微调还有必要吗？看完这一篇你就懂了！！

现在的大模型推理能力越来越厉害，人们开始怀疑：我们还需要花时间和资源去微调大模型吗？这个问题没有标准答案，关键在于你的具体需求。下面我们来聊聊什么情况下值得微调，什么情况下可以省这份力气。

2025-05-13 11:55:55 719

原创用AI大模型做数据分析存在幻觉问题如何解决？看完这一篇你就知道了！！

这个问题在使用大模型写SQL时经常遇到，我之前做过电商数据分析，有很多SQL取数和SQL清洗的应用场景，比如针对某次电商促销活动进行复盘分析，需要得出“每一个品类在618促销期间的订单转化率”。随便使用一个大模型，比如使用DeepSeek V3模型，在输入框中输入下面的提示词：

2025-05-13 11:17:32 512

原创 DeepSeek精度效率双提升，华为&信工所提出思维链“提前退出”机制

长思维链让大模型具备了推理能力，但如果过度思考，就有可能成为负担。华为联合中科院信工所提出了一种新的模式，让大模型提前终止思考来避免这一问题。利用这种方法，无需额外训练，就可以让大模型的精度和效率同时提升。

2025-05-12 11:25:26 764

原创有手就会！在Cursor中配置你的第一个MCP服务——GitHub MCP！建议收藏！！

关于MCP，我的观点暂时没什么改变，这是一个长期被低估，短期被高估的方向，你暂时不需要对MCP这个概念有太多的焦虑，如果你觉得自己不太理解MCP，不知道MCP怎么用，那还是因为现在MCP生态不够成熟，相应的工具不够好用。以及，可能你没有相应的需要而已。现阶段的MCP并没法帮你做出更好的产品，只是为你提供效率提升的价值，如果你实际没有需要，而去疯狂尝试各种MCP服务，或者MCP生态下各种各样的工具，那就又有点舍本逐末，陷入工具爱好者的误区了。

2025-05-12 10:42:13 1105

原创 DeepSeek+Dify 构建本地知识库，真香！建议收藏起来慢慢学！！

之前讲过 DeepSeek + Cherry 搭建本地知识库，这样的知识库比较初级，上传的文件限制较多。无法满足更多个性化需求。今天我们来看看 DeepSeek + Dify 如何搭建自己的知识库。Dify 作为同样开源的 AI 应用开发平台，提供完整的私有化部署方案。通过将本地部署的 DeepSeek 服务无缝集成到 Dify 平台，企业可以在确保数据隐私的前提下，在本地服务器环境内构建功能强大的 AI 应用。

2025-05-11 08:00:00 1433

原创【AI大模型】探索 LLM(-Agent) 安全：全栈视角下的深度解析（万字综述）

今天，我们来聊聊大型语言模型（LLM）及其智能体（Agents）的全栈安全问题。这不仅仅是一个技术话题，更是关乎我们未来如何与 AI 共存的重要议题。当下，大型语言模型（LLM）正以其卓越的性能和广泛的应用前景，引领着人工智能领域的变革。从智能写作到自动编程，从医疗诊断到金融分析，LLM 的身影无处不在。然而，随着 LLM 在各个领域的深入应用，其安全性问题日益凸显，成为学术界和工业界共同关注的焦点。本文将探讨 LLM 从数据准备、预训练、后训练到部署的全生命周期安全问题，剖析每个阶段潜在的风险与挑战，

2025-05-10 14:04:16 711

原创【AI大模型】深入解析Transformer：大语言模型的核心架构！对新手别太友好！快收藏！！

Transformer 输入Transformer 中单词的输入表示x由单词Embedding和位置 Embedding（Positional Encoding）相加得到，通常定义为TransformerEmbedding 层，其代码实现如下所示:1.1 单词 Embedding单词的 Embedding 有很多种方式可以获取，例如可以采用 Word2Vec、Glove 等算法预训练得到，也可以在 Transformer 中训练得到。

2025-05-10 11:37:04 626

空空如也

空空如也