码农Q！-CSDN博客

原创 Ollama平替！LM Studio本地大模型调用实战

本文介绍了如何通过LMStudio工具在本地启动并调用AI模型服务。首先，在“开发者”选项卡中选择模型，并设置暴露的端口（默认1234），启用CORS以便与网页应用或其他客户端工具对接。启动服务后，控制台会显示运行日志和访问地址。用户可以通过curl命令快速验证服务器是否可访问，并调用聊天功能进行对话。调用时需提供完整的对话历史记录，且可以选择流式传输或累积完整响应。流式传输适用于较长的内容生成或运行速度较慢的模型，而累积完整响应则需等待所有预测结果生成后再返回。

2025-05-15 18:02:17 452

原创 Mac上跑大模型必看：彻底搞懂GGUF与MLX的区别和联系

GGUF（原名GGML）是一种高效的模型存储格式，特别适用于量化大语言模型，如4-bit、5-bit等低精度模型，广泛用于本地化部署中小型LLM（如LLaMA系列）。其优点包括内存占用小、支持多种推理后端（如llama.cpp）。MLX是Apple开发的机器学习框架，专为苹果设备优化，支持GPU加速，可加载PyTorch模型进行本地推理。GGUF和MLX可以结合使用，先将标准模型转换为GGUF格式，再转换为MLX格式，最终在苹果设备上实现高性能、低内存占用的本地推理

2025-05-15 17:59:21 433

原创 AI Agent 破局：MCP 与 A2A 定义安全新边界

模型上下文协议（MCP）是由Anthropic提出的开放标准，旨在为AI模型与外部工具之间建立安全、双向的连接。在MCP出现之前，AI要集成工具可能需要针对每个工具进行定制开发，缺乏统一标准，集成效率低，而MCP协议提供了一个可插拔、可扩展的框架，允许AI无缝对接数据源、文件系统、开发工具、Web浏览器等外部系统，使得AI的能力更容易被拓展。而在2025年4月9日，谷歌云正式发布了Agent2Agent（A2A）协议，这是首个专为AI代理互操作性设计的开放标准。

2025-04-14 21:37:21 1011

原创 Agno框架介绍：用于构建多模态智能体的轻量库

构建TriSage与Marketing Analyst营销分析师智能体。如果要求高速、低内存占用、多模态功能以及灵活的模型/工具选项，请选择Agno。如果偏向基于流程的逻辑或结构化执行路径，或者已经与LangChain生态系统紧密关联，请选择LangGraph。从实践角度来看，Agno已经为生产级工作负载做好了准备，尤其是对大规模构建智能体系统的团队而言。它的实时性能监控、对结构化输出的支持以及插入内存+向量知识的能力，使其成为能够快速构建强大应用程序的出色平台。

2025-04-14 21:34:12 955

原创基于大模型的 RAG 核心开发——详细介绍 DeepSeek R1 本地化部署流程

前言自从 DeepSeek 发布后，对 AI 行业产生了巨大的影响，以 OpenAI、Google 为首的国际科技集团为之震惊，它的出现标志着全球AI竞争进入新阶段。从以往单纯的技术比拼转向效率、生态与战略的综合较量。其影响已超越企业层面，涉及地缘政治、产业政策与全球技术治理，它彻底改变“美国主导创新、中国跟随应用”的传统格局，形成多极化的技术权力分布。DeepSeek 的开源性彻底打破了 OpenAI 等公司通过 API 接口调用，依赖 token 计费的单一规则。

2025-04-14 21:30:05 721

原创大模型应用的能力分级

根据微软的研究，RAG 的能力可以按照搜索的复杂程度分为四个层次：显式事实查询、隐式事实查询、可解释的推理查询和隐式的推理查询。无论处于哪个层次，外部数据来源都起着关键作用。对大模型应用的能力分级就像给学生打分一样，能让我们更清楚它的本事有多大。能力分级能帮我们设定目标，知道AI现在能干什么，未来还要学什么。有了统一的分级方式，大家就能公平比较不同AI的水平，推动技术进步。同时，不同分级的AI适合干不同的活儿，能帮我们找到最合适的帮手。另外，能力分级让普通人更容易理解AI的能力，避免过度期待或担心。

2025-04-10 19:15:37 909

原创超实用！Prompt程序员使用指南，大模型各角色代码实战案例

提示词（Prompt）是输入给大模型（LLM）的文本指令，用于明确地告诉大模型你想要解决的问题或完成的任务，也是大语言模型理解用户需求并生成准确答案的基础。因此 prompt 使用的好坏，直接决定了大模型生成结果的质量（是否符合预期）。提示词（Prompt）是输入给大模型（LLM）的文本指令，用于明确地告诉大模型你想要解决的问题或完成的任务，也是大语言模型理解用户需求并生成准确答案的基础。因此 prompt 使用的好坏，直接决定了大模型生成结果的质量（是否符合预期）。图片。

2025-04-10 19:13:40 814

原创 RAG实战 | 向量数据库LanceDB指南

提供单机服务，可以直接嵌入到应用程序中支持多种向量索引算法，包括Flat、HNSW、IVF等。支持全文检索，包括BM25、TF-IDF等。支持多种向量相似度算法，包括Cosine、L2等。与Arrow生态系统紧密集成，允许通过 SIMD 和 GPU 加速在共享内存中实现真正的零拷贝访问。向量搜索是一种在高维空间中搜索向量的方法，主要是将原始数据通过嵌入模型得到向量，然后通过向量相似度算法计算向量之间的距离，从而找到最相似的向量。

2025-04-10 19:09:54 1006

原创多模态模型结构与训练总结

最近看了很多多模态大模型相关的论文，今天对模型结构和训练进行一个简单总结，整体来看，各家的模型结构基本上一致，无非是一些模型细节上的改变。模型训练方式也大差不差，基本上都是预训练+微调。整体的模型结构了解了，后续就开始更新模型的各个模块单元了，首先从模态编码器上继续进行一个系统的学习，希望能帮助到大家。

2025-04-10 19:03:17 1004

原创智能体 | 基于ReAct框架：构建极简智能体实践的探索

基于ReAct的方式，手动制作了一个最小的Agent结构（其实更多的是调用工具）。基于ReAct的方式，手动制作了一个最小的Agent结构（其实更多的是调用工具）。

2025-04-10 18:59:30 1008

原创绕过 RAG 实时检索瓶颈，缓存增强生成（CAG）如何助力性能突破？

因此，简而言之，正是由于上下文窗口对 LLMs 的限制，RAG 才得以发展起来。

2025-04-10 17:27:10 767

原创大模型 Token 的消耗可能是一笔糊涂账

过去，我们投入了大量时间和精力在基础设施资源利用率的提升上；当下，所有从事 AI Infra 的企业都专注在资源的利用率上，从底层硬件、模型层、推理优化层，以及在往上的网关入口层，这将是一场工程和算法比翼的长跑。

2025-04-10 17:21:14 885

原创通用大模型VS垂直大模型

通用大模型VS垂直大模型通用大模型垂直大模型在人工智能这个充满无限可能的领域内，通用大模型和垂直大模型各有千秋。就我个人而言，在二者之间的选择上，并不存在偏向某一方的倾向。我觉得应当依据实际应用场景的具体需求，来挑选最为契合的大模型。毕竟，不同的场景有着不一样的任务要求、数据特征以及对模型功能的侧重点，只有充分考虑这些实际因素，才能让所选择的大模型发挥出最大的效能。通用大模型通用大模型，乃是旨在应对多种任务与数据类型的庞然大物级人工智能模型。

2025-04-10 17:13:28 799

原创一文读懂 Agentic RAG 技术点滴

RAG（Retrieval-Augmented Generation - 检索增强生成）是一种构建基于大型语言模型（LLM）应用的技术创新，通过利用外部知识源为 LLM 提供相关上下文，从而减少幻觉（Hallucination）现象，提高生成内容的准确性和可靠性。在当今信息爆炸的时代，RAG 为 LLM 提供了超越内部知识限制的能力，使其能够在复杂场景中生成更具依据的回答。通常而言，一个基本的 RAG 流水线通常包含两个核心组件：检索组件和生成组件。

2025-04-10 17:06:46 795

原创使用Argo Workflows微调大语言模型

总的来讲使用这种方式，有以下一些优点：节省成本。细粒度的控制任务。提高效率。当编写完这样一个流程之后，全程是自动化的，并且失败也可以自动重试。容易扩展：根据参数的不同容易扩展到不同的模型、数据集。可重复：容易进行版本控制，运行状态的复现定位。构建完成这样的标准流程之后，之后还可以基于 Argo Workflows 做什么来让我们的工作流运行的更高效呢。1）基于 Argo Workflows 实现自动化 CI/CD、和 Argo Events 集成，构建事件驱动的全自动化工作流，提升整体的研发效率。

2025-04-10 17:01:47 845

原创大模型除了聊天还能做什么？关于大模型的分类和应用

大模型由于其快速迭代的原因，因此大模型分类存在很多困难；而作为大模型应用的使用者和开发者我们需要做的就是不断去尝试和体验模型的功能。大模型技术发展到今天，其功能可以说是日新月异；并且很多企业已经在探索大模型的应用场景和技术实现；但是很多人到现在对大模型的了解仅仅只限于能聊个天，问个问题。但实际上，大模型能够做的事要远比我们想象中的要多的多；因此，今天我们就从用户和技术两个角度来介绍一下大模型的应用。

2025-04-09 17:31:17 895

原创三思而后行，让大模型推理更强的秘密是「THINK TWICE」？

Think Twice” 展示了一种简单有效的思路：鼓励大模型主动 “反思”，用多轮推理激发更强的认知能力。它不仅提升了准确率，更令模型在语言表达上变得更加理性、紧凑、自信。在训练成本不断攀升的今天，这种无需再训练的 “轻量级优化” 无疑具有极强的现实吸引力。未来，多轮推理或许能成为一种标准机制，帮助模型更接近真正意义上的 “会思考”。

2025-04-09 17:29:00 875

原创 LLM「想太多」有救了！高效推理让大模型思考过程更精简

大模型虽然推理能力增强，却常常「想太多」，回答简单问题也冗长复杂。Rice大学的华人研究者提出高效推理概念，探究了如何帮助LLM告别「过度思考」，提升推理效率。LLM的推理能力显著增强，然而，这个「超级大脑」也有自己的烦恼。有时候回答会绕好大一个圈子，推理过程冗长又复杂，虽能得出正确答案，但耗费了不少时间和计算资源。比如问它「2加3等于多少」，它可能会从数字的概念、加法原理开始，洋洋洒洒说上一大通，这在实际应用中可太影响效率啦。

2025-04-09 17:27:02 531

原创 AI问答的核心！知识图谱：突破传统 RAG 的天花板

知识图谱 RAG 技术的快速发展证明了一点：AI 技术的进步不仅依赖于更大的模型，更取决于我们如何组织和利用知识。在智能化时代，谁掌握了知识的结构，谁就掌握了 AI 的未来。看似简单的 AI 问答系统，背后却隐藏着无数技术难题。当我们询问"组件 A 与组件 B 有什么区别"这样的问题时，传统检索增强生成(RAG)系统往往会犯难。它们就像只会做加法的计算器，遇到了需要乘除法的复杂方程...

2025-04-09 17:23:26 883

原创近期爆火的 AI Agent，运行原理全解析

IDC 调研显示，Agent 被普遍认为是 AI 应用发展的趋势性方向，50% 的企业已经在某项工作中进行了 AI Agent 的试点，另有 34% 的企业正在制定 AI Agent 的应用计划，主要应用于智能终端、智能座舱、汽车自动驾驶、工业机器人和人形机器人等领域。现在市场上已经存在大量数字化、智能化的工具，智能体使用工具比人类更为顺手和高效，通过调用不同的 API 或工具，完成复杂任务和输出高质量结果，这种使用工具的方式也代表了智能体的一个重要特点和优势。行动模块是智能体实际执行决定或响应的部分。

2025-04-09 17:03:28 1019

原创 RAG还是微调？AI落地的关键选择

你是否曾经面临这样的困境：部门刚刚决定采用大语言模型解决业务痛点，但技术团队却陷入了"到底该用RAG还是微调"的激烈争论中？你是否曾经面临这样的困境：部门刚刚决定采用大语言模型解决业务痛点，但技术团队却陷入了""的激烈争论中？一边是成本控制派，坚持RAG轻量级方案；另一边是性能至上派，认为只有微调才能满足业务需求。让我们跳出技术视角，用真实业务场景来理解这两种方案。

2025-04-09 16:58:41 570

原创 Ollama本地部署大模型总结

今天计划对之前ollama系列做个回顾，从如何部署到API使用，整理到一篇内容中，提供给大家参考。

2025-04-09 16:52:42 1048

原创深度学习--个人总结

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。数据归一化是深度学习中不可或缺的步骤，它通过调整数据的范围和分布，帮助模型更快地收敛，减少数值计算问题，提高泛化能力，并简化模型的设计和训练。网上虽然也有很多的学习资源，但基本上都残缺不全的，这是我自己整理的大模型视频教程，上面路线图的每一个知识点，我都有配套的视频讲解。

2025-04-09 16:43:48 669

原创为什么说 JSON 不一定是 LLM 结构化输出的最佳选择？

如前文所述，CSV 格式的挑战在于逗号在数据中较为常见，这可能会导致两种情况：要么是需要更多的 tokens 来处理这些逗号，要么是 LLM 在处理时未能正确进行转义，从而产生错误的数据。因此，如果你的数据可能包含逗号，最好避免使用 CSV，或者设计一个详尽的提示词，并实施有效的评估流程，以便准确衡量其可靠性。总体而言，TOML 和 YAML 非常相似，TOML 需要更多的 token，不支持 top-level lists，但对于使用 Python 3.11 或以上版本的用户来说，不需要额外的解析库。

2025-04-09 16:38:40 958

原创大模型赋能，指标平台更懂你的数据

传统的指标管理平台往往面临指标数据查询复杂、分析决策门槛高等挑战，难以满足企业快速、精准决策的需求。为了让数据分析管理更智能，袋鼠云数栈指标管理平台结合大模型完成了智能化的升级，可以给数据分析的场景提供更强大、更高效的助力。大模型凭借其强大的自然语言理解能力和泛化能力，能够精准识别用户的查询意图、分析复杂数据、并能提供分析建议，与指标平台相结合大幅降低了数据分析的技术门槛。接下来将带领大家展示指标平台的解析其中的功能及关键技术。

2025-04-09 16:35:32 650

原创大模型入门指南：从零开始，轻松掌握AI核心概念

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。这种方式主要解决模型不知道自己知道的问题。以识别「猫」和「狗」为例，判别模型主要学习的是「猫」和「狗」的区别，而生成模型主要学习的是「猫」和「狗」的特征。深度学习：是机器学习的一个子集，核心是使用人工神经网络模仿人脑处理信息的方式，通过层次化的方法提取和表示数据的特征，专注于非结构化数据的处理。

2025-04-08 20:08:22 832

原创 MCP+Hologres+LLM 搭建数据分析 Agent

模型上下文协议（Model Context Protocol，MCP）是 Anthropic 于 2024 年推出的开源标准，旨在解决大模型与外部工具、数据源的集成难题。其核心作用是通过标准化接口架构，将 AI 模型的决策逻辑与外部资源解耦，形成 "智能大脑 + 外接四肢" 的协同模式。

2025-04-08 20:02:26 1206

原创玩转RAG应用：如何选对Embedding模型？

github :paper :MTEB 是一个包含广泛文本嵌入（Text Embedding）的基准测试，它提供了多种语言的数十个数据集，用于各种 NLP 任务，例如文本分类、聚类、检索和文本相似性。MTEB 提供了一个公共排行榜，允许研究人员提交他们的结果并跟踪他们的进展。MTEB 还提供了一个简单的 API，允许研究人员轻松地将他们的模型与基准测试进行比较。Bitext Mining ：寻找两种语言句子集之间的最佳匹配。

2025-04-08 19:58:21 853

原创训练AI大模型需要什么样的gpu

综上所述，训练AI大模型需要选择具有强大计算能力、足够显存、高效带宽、良好散热和能效比以及良好兼容性和扩展性的GPU。训练大模型通常包含数十亿甚至数百亿个参数，需要处理海量的数据，并在复杂的计算环境中进行长时间的训练。训练AI大模型涉及大量的矩阵运算和梯度计算，因此需要GPU具备强大的计算能力。数据在GPU和主存之间频繁交换，特别是在多GPU分布式训练场景下，GPU之间的通信需要高带宽以保持数据同步和梯度传输的效率。大型模型需要更大的显存来支持其训练过程，避免因为显存不足而导致的性能瓶颈。

2025-04-08 19:46:12 573

原创 AI大模型应用技术栈：从底层到前沿的AI之旅

摘要：最近大模型很火热，deepseek也很火热，所以所有的企业都想把AI大模型加入进来，当想到这里的时候，就会遇到这个问题，大模型能做什么，不能做什么，能做到什么程度，为此，今天先分享一下一个AI大模型应用开发涉及到的技术栈有哪些?基石：基础设施层网络与算力调度核心：模型层应用：应用技术栈呈现：应用层01—基石：基础设施层(一)硬件核心1、GPU：并行计算的 “超级引擎”在大模型的世界里，GPU 堪称是并行计算的 “超级引擎”。

2025-04-08 19:43:57 832

原创一文读懂开源 Llama 4 模型

本文将带你一文读懂 Llama 4 模型，从其核心架构到实际应用，为大家揭开这款前沿技术的神秘面纱，全面了解它们如何推动 AI 技术的创新与发展 ...Hello folks，我是 Luga，今天我们来聊一下人工智能领域的最新大模型技术进展 - 构建高效、灵活、以及开源的的大模型 - Llama 4。在人工智能领域，随着技术的不断进步，越来越多的强大语言模型应运而生。Llama 4 作为 Meta 推出的最新一代大规模语言模型，凭借其卓越的性能和创新的架构设计，成为了当前 AI 领域的焦点之一。

2025-04-08 19:36:39 1264

原创大语言模型变身软体机器人设计「自然选择器」，GPT、Gemini、Grok争做最佳

当前最先进的 LLM 在区分明显不同的设计时表现良好，但在处理细微性能差异时仍面临挑战。提供清晰、全面的任务描述对于 LLM 做出正确设计选择至关重要。模型表现出偏向选择更优设计的趋势，这与其预训练方式可能有关。这些发现为利用 LLM 进行软体机器人设计提供了重要指导，同时也揭示了未来改进方向：可能需要开发针对体现设计的特定训练策略，或构建更复杂的提示框架，以提高模型在处理细微设计权衡时的性能。

2025-04-08 19:33:33 825

原创大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略

硬件规划7B 模型需 8GB 内存，70B 模型需 32GB+。显存不足时优先选择低精度版本。安全第一避免将 Ollama 端口暴露公网，定期更新版本。模型选择根据需求选择（如DeepSeek适合代码生成，Qwen适合多语言）。

2025-04-08 19:30:46 884

原创为什么大语言模型难以处理长上下文？从 Transformer 到 Mamba

编者按：大语言模型真的能像人类一样高效处理海量信息吗？我们今天为大家带来的这篇文章，作者揭示了大语言模型在长上下文处理中的技术挑战与未来发展路径。文章重点聚焦于三个关键层面：首先，解析了 Transformer 模型注意力机制的计算成本问题，指出随着上下文长度增加，计算复杂度呈指数级增长；其次，探讨了 Mamba 等新兴架构在突破传统模型局限性方面的潜力；最后，强调需要跳出现有思维模式，寻找处理海量信息的创新方法。

2025-04-08 19:26:18 735

原创 MCP会成为Agentic AI的标准吗?

MinIO 的 MCP 服务器支持 AIstore 中 25 种不同的命令，它还宣布将在其 MCP 产品中加入管理功能，以防止 MCP 客户端未经授权的访问，并为 MCP 服务器引入监控功能。其他供应商也在 MCP 的基础上进行开发。你可以告诉人工智能代理，比如亚马逊的 Alexa+，让它来做这件事，但它很可能会遇到一些问题，比如这个人到底是谁，你提到的 Uber 账户到底是什么。”Van Roo 最近告诉 BigDATAwire，“它一问世，我们就想，我们已经建立了很多基础设施，但还是利用他们的流程吧。

2025-04-08 19:19:44 760

空空如也

空空如也