自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(649)
  • 收藏
  • 关注

原创 “返回个啥玩意儿?”用LangChain4j优雅格式化LLM结果!

终于来到最强的部分!你可以让 LangChain4j 把模型返回的结构化数据,自动映射到你定义的 Java 类上。比如我们定义一个 POJO:然后定义服务接口:LangChain4j 会使用 Jackson 或者 Gson(具体视你依赖而定)来解析 JSON,并自动转为 Java 对象!只要模型能返回类似这样的结构化数据:你就能直接拿到一个 Java 对象,无需手动解析。

2025-05-05 15:19:50 371

原创 【AI大模型微调实战】Qwen2-0.5B+Lora+alpaca_zh 微调实战,附完整可运行源代码

预训练大模型在训练过程中,虽然学到了很多通用知识,但是很多时候,大模型本身并不能在专业领域表现得非常好。比如你让 Qwen 模型回答“量子力学中的叠加态是什么”,它可能会给出一个笼统的解释。但要是让模型严格按照某一格式(比如论文格式)回答时,可能就不太行。除非你在上下文聊天中给他一些例子让他先自我学习。这也被称为“上下文学习能力 + Few-shot”的方式,但这并不改变模型的本质。因此,对这种需要改变模型回答模式的需求,我们一般对预训练模型进行微调。大模型微调的方法有很多。

2025-05-03 14:15:00 636

原创 从入门到精通Transformer,NLP小白跟学系列《从零开始构建最先进的NLP模型》

国内第1本Transformer——变形金刚红书《从零开始构建最先进的NLP模型》如果一定要说未来谁能引领人工智能世界,是Transformer而非chatGPT!编辑推荐★★★★★ChatGPT红得发紫,强得让人类心悸。但在它的背后,还隐藏着一位真正的大佬。它的名字叫做——Transformer!

2025-05-01 09:30:00 628

原创 通俗易懂的梳理MCP的工作流程(以高德地图MCP为例)

总结来说,client 应用负责管理跟 MCP Server 的连接、发现工具有哪些,并在 AI 大模型和 MCP Server 之间充当信使。它将用户 prompt 和可用的工具信息发送给大模型。至于具体的工具使用决策权,还是在于 LLM。LLM 根据用户问题和收到的工具描述/格式,判断是否需要使用工具,以及使用哪一个。这实际上也是 MCP 的核心价值:MCP 并没有发明工具调用的概念,它只是围绕大模型的工具调用能力,提供了一套标准化的通信协议和框架。

2025-04-28 16:43:28 924

原创 从零开始开发一个 MCP Server!保姆级教程!

本文从 MCP Server 开发实战出发,完整演示了从零搭建一个 MCP Server 的流程。你不仅掌握了 MCP Server 的构建方式,也能体验到了 MCP 工具在开发者日常工作中带来的提效魔法。

2025-04-28 16:26:24 852

原创 GitHub 42k Star项目,全网疯传的大模型神书,还学不会算我输!

在大多数 LLM 实现倾向于使用高级包(如transformers, timm)的时代,看到通过使用基本的 PyTorch 元素逐步开发 LLM 的核心构建块,真是令人耳目一新。Sebastian Raschka 以深入浅出的方式,从最初的设计和创建,到使用通用语料库进行预训练,直至针对特定任务进行微调,带领读者深刻理解 LLM 的内部工作原理。这本书强烈推荐给那些希望了解大语言模型实践经验的人。这本书中,作者通过简明的文字、直观的图表和具体的实例,逐步揭示了构建大语言模型(LLM)的全过程。

2025-04-25 17:17:11 756

原创 一文秒懂AI核心:Agent、RAG、Function Call与MCP全解析

如今大语言模型(LLM)的风头一时无两,它们能写诗、能聊天、能编程,简直无所不能!但你有没有发现,有时候它们也挺“傻白甜”的?比如问它今天的天气,它可能给你一个“根据我的知识库…”的过时答案;让它帮你整理本地文件,它只能表示爱莫能助。这是因为 LLM 本身像一个博学但与世隔绝的大脑。,以及一个新晋的潜力股——。今天,我们就用大白话+生动比喻,带你一次搞懂这四大金刚,看看它们是如何协同作战,让 AI 从“理论派”变身“实干家”的!之前/docs#general。

2025-04-21 16:15:22 597

原创 Spring AI 基于ollama:qwen:7b + pgvector 实现RAG问答系统

了解完嵌入模型、向量数据库相关知识后,在此基础上可以实现一个RAG本地问答系统。

2025-04-21 16:08:04 892

原创 《多模态大模型:技术原理和实战》揭露多模态大模型本质,大模型入门必看!

多模态大模型:技术原理与实战》详细介绍了大语言模型和多模态大模型的发展历史、技术原理和亮点、主要的开源框架、配套工具、部署细则和实战案例。为了让读者更好地进行大模型的应用实战,本书还详细介绍了使用大模型为商业赋能的3个应用案例。期望本书能够帮助读者打开通往大模型尤其是多模态大模型的学习、实战和商业成功之路。《多模态大模型:技术原理与实战》适用于从事人工智能工作的专业技术人员,比如算法工程师、研发工程师等,也适用于对多模态大模型感兴趣的各类从业者,比如产品经理、项目经理和各级管理人员等。彭勇。

2025-04-16 16:18:14 924

原创 LangChain + 模型上下文协议(MCP):AI 智能体 Demo

是由 Anthropic 推出的开源协议,旨在为大型语言模型(LLM)提供安全、可解释、可扩展的外部数据与工具集成方案。

2025-04-14 16:52:02 835

原创 图解 LangChain 物流优化,三天不睡只为你设计最优配送路径

2. 数据处理实用功能1. 路径优化计算2. 时间窗口处理3. 多目标优化LangChain 物流优化工具是连接 AI 与物流业务的桥梁,可以帮你:学会用 LangChain 来做物流优化,真不是吹的。试试呗,让你从满头大汗的深夜加班中解脱出来!配送效率蹭蹭往上涨,老板可能会给你加薪…好吧,至少省点油钱是真的。大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “”“”等问题热议不断。不如成为,毕竟AI时代,谁先尝试,谁就能占得先机!想正式转到一些新兴的 AI 行业,

2025-04-11 15:16:16 1016

原创 图解 LangChain 餐饮推荐,反复调试只为你打造个性化菜单系统

2. 工具集成2. 检索增强生成3. 自定义工具链2. 构建多步菜单过滤器LangChain库是构建智能推荐系统的强大工具,可以帮你:大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “”“”等问题热议不断。不如成为,毕竟AI时代,谁先尝试,谁就能占得先机!想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现

2025-04-10 16:36:39 983

原创 人工智能 | 2024中国智能算力行业白皮书:产业图谱、市场规模等

由沙利文和天罡智算联合发布,聚焦于中国智能算力行业的现状和发展趋势。智能算力通常指的是支撑人工智能应用的计算能力,包括但不限于数据处理、机器学习、深度学习等任务的能力。分析当前智能算力的关键技术,例如 GPU、TPU、FPGA、ASIC 等。探讨人工智能芯片的发展,包括硬件加速、云计算和边缘计算。讨论智能算力在不同行业中的应用,如金融、医疗、交通等。报告介绍了智能算力行业的背景、定义和重要性。分析市场的主要参与者、竞争格局和市场份额。提供智能算力市场的规模、增长率和预测。

2025-04-07 14:55:14 420

原创 漫画趣解:大模型预训练、后训练、微调

不过,一般后训练(像前面说的强化学习方法),发生在。

2025-04-07 14:54:13 1020

原创 大模型应用实战:使用PEFT库进行ChatGLM3-6B模型的QLORA高效微调

LoRA的核心思想是将可调整的低秩矩阵注入到Transformer架构的每一层中,充当"适配器"的作用。这样可以使模型针对特定任务进行调整和专门化,同时最大限度地减少额外的参数数量,提高参数效率。QLoRA是LoRA的扩展版本,在微调过程中引入了量化技术,以进一步提高参数效率。QLoRA利用LoRA的原理,并引入了4位NormalFloat(NF4)量化和双重量化技术,进一步减少了存储和计算资源的使用。

2025-03-31 21:28:32 1026

原创 保姆级教程!手把手教你从零开始基于 Langchain-Chatchat 搭建本地大模型知识库

本项目支持市面上主流的开源 LLM、 Embedding 模型与向量数据库,可实现全部使用开源模型离线私有部署。与此同时,本项目也支持 OpenAI GPT API 的调用,并将在后续持续扩充对各类模型及模型 API 的接入。最新的 0.3.x 版本功能如下列表所示。

2025-03-31 21:26:30 976

原创 清华大学:大模型安全实践白皮书(附完整PDF下载)

该文件详细分析了金融、医疗、政务、人力资源以及智能助理等领域中大模型的安全实践案例,探讨了安全性、可靠性、可控性技术的最新研究进展,并针对大模型的风险挑战提出了系统化的应对策略。报告还展望了大模型技术的未来发展趋势,并提出了包含政府监管、生态培育、企业自律、人才培养、测试验证在内的“五维一体”治理框架,旨在为确保大模型技术的健康发展和安全可靠应用提供指导和建议。

2025-03-28 14:36:37 701

原创 Fastgpt结合Ragflow构建本地表格知识库,效果拉满!【喂饭级教程】

搭建之后也关系到你的虽然fastgpt支持直接导入Excel,但是,导入知识库的,导致知识库问答效果不佳。优化知识库的问答效果不是一蹴而就的,需要经过反复调整,反复测试。而且是多维度的优化。语言模型、索引模型、重排模型、RAG的方式、数据的质量、知识库的参数、大模型的参数等等都会对知识库的问答效果产生影响。数据预处理我们先达成共识,在知识库把数据转换为向量之前,对原始文件做的数据清洗、整理、优化叫做构建知识库的第一关就是—— 把各种非结构化文件转化为结构化数据(或者说提取整理、清洗数据)。

2025-03-28 14:22:50 1032

原创 本地知识库+本地大模型,借助RAGFlow搭建医院医疗问诊助手,纯本地,超实用!

使用Huggingface上的开源医疗数据集,借助 RAGFlow 搭建自己的本地医疗问诊助手。原理:RAGFlow是一个基于对文档深入理解的开源 RAG(检索增强生成)引擎。它的作用是可以让用户创建自有知识库,根据设定的参数对知识库中的文件进行切块处理,用户向大模型提问时,RAGFlow先查找自有知识库中的切块内容,接着把查找到的知识库数据输入到对话大模型中再生成答案输出。

2025-03-28 11:48:57 738

原创 AI大模型落地应用实战:DeepSeek + RagFlow + Ollama + 私有知识库 构建本地知识库系统实战指南

本文将带您构建一个集大模型推理、智能检索、知识加工于一体的本地知识库系统,深度融合DeepSeek认知大模型的语义理解能力、RagFlow的文档智能处理能力以及Ollama的本地化部署优势。: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

2025-03-26 16:36:57 1271

原创 AI大模型应用实战:构建基于知识图谱的知识问答系统

知识图谱(Knowledge Graph)是一种结构化的语义知识库,它以图形的方式组织和整合信息,使得数据之间的关系变得直观和易于理解。知识图谱的概念融合了计算机科学、数据科学、人工智能等多个领域的技术,旨在通过关联分析揭示数据背后的深层次关系。

2025-03-26 16:28:37 687

原创 不懂RAG?看这一篇万字长文就够了!

本文转载自:大语言模型论文跟踪,主要是对论文《A Survey on Knowledge-Oriented Retrieval-Augmented Generation》的解读。论文链接:https://arxiv.org/abs/2503.10677传统的语言模型,比如 GPT-3,虽然在生成文本方面表现出色,但它们有一个显著的局限性:它们依赖于预训练的参数,无法动态访问外部知识。这意味着这些模型在处理实时信息、领域特定知识或罕见实体时表现不佳。

2025-03-26 16:01:18 910

原创 无需代码DeepSeek R1满血版本地部署+各应用(完整工具包)+保姆级教程

deepseek厉害的地方还在于能开源,自己的电脑可以部署使用,不需要联网了,老旧电脑都能跑,直接放教程了。

2025-03-24 14:20:31 9381

原创 如何从零训练一个LLM:尝试基于0.5B小模型复现DeepSeek-R1的思维链

1.虽然微调第一步得到的SFT模型已经能够输出思维链,但是其回答问题的准确性还比较差,因为SFT训练的重点其实是整体的回复质量,而不是专注于正确答案;2.但如果不经过SFT训练,直接使用GRPO的话,一开始模型的输出是没有思维链的,又无法准确提取答案,导致没有任何奖励,变得难以训练,或者选择能力更强的底座模型;3.因此对于聊天类的数据,可以考虑直接使用SFT去微调,因为整体的回复质量更为重要,而对于数学/代码等要求正确答案/能否运行的数据,可以SFT+强化学习。\4. 完整代码。

2025-03-24 14:11:59 740

原创 学习大模型真不难!常见的问题就这么多!想要快速入门大模型,这本大模型中文书你一定一定要好好阅读!!

中国人民大学在 arXiv 网站发布了英文版大语言模型综述文章《A Survey of Large Language Models》,该综述文章系统性地梳理了大语言模型的研究进展与核心技术,讨论了大量的相关工作。同时,为了促进大模型知识在中文社区的传播,推动中文大模型研究,中国人民大学对英文版进行了翻译校对,推出了首个中文版大语言模型综述!模型架构(Transformer 结构、大模型主流架构、细节改进)解码与部署(解码生成算法、解码加速算法、模型压缩算法)大模型资源(开源模型、数据、代码库)

2025-03-24 13:59:25 494

原创 零代码搭建本地知识库:基于DeepSeek+RAG+Ollama+Cherry Studio全流程指南

核心价值企业敏感数据100%离线处理个人知识库智能问答本地模型快速响应支持PDF/Word/网页等多格式文档工具链Ollama:开源模型托管平台(支持150+模型):深度求索开源的16K长文本大模型:中文语义向量模型:AI应用可视化客户端本方案在Intel i7-12700H + RTX 4070设备上实测,可流畅处理200页以内的技术文档问答。通过本地化部署既保障了数据安全,又充分发挥了DeepSeek模型的逻辑推理能力。

2025-03-22 13:52:12 1053

原创 (干货篇)一文带你将 DeepSeek 部署到本地,并对接至Vscode!

将 DeepSeek 部署在本地,就像给你的电脑装了一个“AI大脑”,从此写报告、改代码、查资料再也不用求人。而且完全离线操作。无论是学生、上班族还是开发者,都能用它大幅提升效率。

2025-03-22 13:48:29 1380

原创 一文彻底搞懂大模型 - Agent(智能体)从零基础到精通,看这篇就够了,赶紧收藏!!!

大模型Agent是一种构建于大型语言模型(LLM)之上的智能体,它具备环境感知能力、自主理解、决策制定及执行行动的能力。

2025-03-21 12:01:07 921

原创 实战模型蒸馏 | 保姆级教程单卡L20高效训练Qwen2.5模型

李飞飞团队提出的‌Simple Test-Time Scaling(S1)‌通过动态调整模型预测置信度,在ImageNet上已实现3.2%的平均准确率提升。本教程将手把手教您在‌单卡L20‌上,用‌s1K-1.1数据集‌完成‌Qwen2.5-0.5B Instruct‌模型的S1适配训练。🔥 李飞飞团队全新发布的‌‌,在L20显卡上实测训练耗时降低47%!本文手把手演示如何用‌‌实现:✅ 3小时完成Qwen2.5-0.5B模型S1适配✅ 测试集准确率提升3.3%+✅ 动态温度参数可视化监控。

2025-03-21 11:57:57 611

原创 零基础小白必看!手把手教你用 Ollama + DeepSeek + Cherry Studio 打造本地智能体

可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。1.再次打开Ollama官网,地址:https://ollama.com/,点击MODELS,选择需要的大模型,这里我们选择deepseek,下拉选中7B,再次点击右边复制图例。第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。的爆火,远不止于此。(可以根据自己系统进行选择)

2025-03-21 11:47:58 1118

原创 重磅!首本大模型中文新书发布,复旦最新《大规模语言模型·从理论到实践》,理论+代码

大规模语言模型·从理论到实践》旨在为对大语言模型感兴趣的读者提供一个入门指南,并可作为高年级本科生和研究生自然语言处理相关课程的大语言模型部分补充教材。在撰写本书时,我们力求全面展现大模型研究的各个方面,并避免给出没有广泛共识的观点和结论。复旦大学自然语言处理实验室张奇教授、桂韬研究员、郑锐博士生以及黄萱菁教授结合之前在自然语言处理领域研究经验,以及分布式系统和并行计算的教学经验,通过在大语言模型实践和理论研究的过程中,历时 8 个月完成本书《大规模语言模型·从理论到实践》不可错过!

2025-03-20 14:52:29 943

原创 超详细!使用 DeepSeek+Docker+Dify 搭建个人知识库

随着 DeepSeek 不断爆火,越来越多的个人和企业都在搭建属于自己行业或自己的私域知识库,那么我们应该怎么使用 DeepSeek 来搭建只属于自己的私域知识库呢,其实不难,就让我们来一探究竟。基于 DeepSeek 搭建个人私域知识库的流程图如下所示:图 1 DeepSeek 模型搭建层流程拆解图 2 知识库应用层流程拆解首先,我们来完成私域知识库需要的模型层的搭建工作。

2025-03-20 14:44:14 1819

原创 使用Dify + DeepSeek在本地电脑搭建工作流,太香了

工作流是由于DeepSeek等大模型的兴起而开始风靡的,它可以基于AI和流程设计来实现自动化的AI应用,比如说自动化生成业务报告、AI自媒体写作、简历筛选机器人等。这些复杂繁琐的工作可以通过DeepSeek这类的大模型生成解决方案,并最终输出结果,形成一套工作流。目前市面上有不少搭建工作流的工具,比如字节Coze、腾讯元器、OpenAI GPTs等,支持通过拖拉拽设计工作流实现一个AI工具的搭建,但这些平台都是大厂的商业应用,你只能在它的平台里搭建和使用,无法离线部署,缺乏应用的灵活性和数据安全性。

2025-03-20 14:40:58 1247

原创 【AI落地应用实战】RAGFlow + 知识图谱 + Deepseek 初步探索

人们对。

2025-03-18 16:31:45 2091 3

原创 GitHub Star 41.9k,全网疯传的《从零构建大模型》配套视频来啦!

他在顶级人工智能会议(如ICLR、NeurIPS、ICML)上发表了数十篇论文,他曾获得2020年百度奖学金提名,北京市2023年优秀博士论文提名奖,2024年KAUST Rising Stars in AI等荣誉。当你亲手打造一个 LLM 时,黑盒不再是黑盒,你会真正理解大模型的工作原理,构建出属于自己的应用!只需跟着作者一步步操作,相信你一定能掌握构建 LLM 的核心技能,成功构建属于自己的大模型!从数据准备到预训练,从指令微调到模型部署,每一步都讲得清清楚楚,还配有代码、示意图,手把手带你实现。

2025-03-17 15:50:55 951

原创 大模型从理论到实践:RAG、Agent、微调等6种常见的大模型定制策略

大语言模型(LLM)是基于自监督学习预训练的深度学习模型,训练数据量庞大、训练时间长,并且包含大量的参数。LLM在过去两年中彻底改变了自然语言处理领域,展现了在理解和生成类人文本方面的卓越能力。然而,这些通用模型的开箱即用性能并。LLM单独使用时无法回答依赖于公司专有数据或封闭环境的问题,这使得它们在应用中显得。由于从零开始训练一个LLM模型需要大量的训练数据和资源,这对于中小型团队来说基本不可行。因此,近年来开发了多种LLM定制策略,以便针对需要专业知识的不同场景调优模型。

2025-03-17 15:47:11 780

原创 看不懂代码如何微调DeepSeek-R1蒸馏的Llama-8B模型?

(这篇帖子主要是自己留个备份。想听我随便聊只看前面就行。想复制代码就直接拉到后面。两年前,我微调过当时开源的一些大语言模型。用阿毗达磨数据。因为,大语言模型在阿毗达磨问题上的表现总是很差。后来,每出一种更强劲的模型,我总会从写作和阿毗达磨两个方面去测试它。在文学写作上,最先达到我认为勉强可用的模型是Claude 3.5 Sonnet(2024年10月版),我是从去年11月开始用sonnet写作的。deepseek R1出现之后,基本替换成R1。R1在阿毗达磨上的表现比现在一般人能用的模型都要相对好一点。

2025-03-12 11:18:29 946

原创 大模型训练到底需要什么样的数据(微调)?

上一期介绍了大模型预训练需要使用的数据–不能直接使用平时我们使用的。

2025-03-12 11:11:17 1330

原创 如果,你想找 AI大模型相关的工作,这三个建议你一定要看!

各种大厂小厂创业团队和 AI 擦边的面试难度,由难到简单,依次是:大模型算法(⭐⭐⭐⭐⭐)模型部署加速(⭐⭐⭐⭐)RAG 等相关技术(⭐⭐⭐)纯应用(⭐⭐)Prompt 工程师等其他自媒体(⭐)会简单应用就行这结果方向,B 站找几个视频看看,这里推荐用 Qwen 7B,开源的模型,一个 3060 都能跑。例如这个,如何微调 Qwen 开源模型。(如果有需要,后面我也会出相关教程)git 项目,都可以拉下来跑一跑例如这个:硬件不够,可以租服务器,现在的显卡价格已经打下来了。

2025-03-11 11:41:03 702

原创 Ollama(本地部署大模型) + LobeChat(聊天界面) = 自己的ChatGPT

本篇文章介绍了本地大模型的部署和 LobeChat 界面的部署,成功在本地部署属于自己的ChatGPT。上面也只是关键步骤的说明,遇到问题多看下官方的安装文档。本文起到抛砖引玉作用。

2025-03-11 11:39:24 1215

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除