
大模型
文章平均质量分 84
记录大模型方面的知识和技能
小枫@码
永远多做一步、多说一句正向的话、多做一件正向的事情
展开
-
大模型推理框架:vLLM
vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」,提供易用、快速、便宜的LLM服务。原创 2025-03-04 16:12:32 · 1750 阅读 · 0 评论 -
GraphRag概念详解
检索增强生成是一种结合检索系统和生成模型的方法,通常用于问答系统、对话系统等场景中。传统的生成模型仅依赖于训练数据,模型在面对新问题或信息匮乏时会出现性能下降的问题。为了解决这一问题,RAG方法引入了检索机制:在生成过程中,模型会从外部数据库或文档中检索相关信息,然后将检索到的内容作为输入的一部分,结合上下文生成更精确的输出。RAG模型的关键优势在于,它能够结合静态模型的学习能力与动态的外部知识,尤其适合处理需要最新信息的任务。原创 2025-03-01 15:14:12 · 729 阅读 · 0 评论 -
大模型训练的一些经验汇总
moss-003-sft-data:由复旦大学 MOSS 团队开源的中英文多轮对话数据,包含 100 万 + 数据 ultrachat:由清华大学开源的英文多轮对话数据,包含 140 万 + 数据 WizardLM_evol_instruct_V2_143k:由 WizardLM 项目开源的英文指令微调数据集,通过 Evol-Instruct 方法让指令进化,加强指令的复杂度,以提升模型对复杂指令的遵循能力。Instruction 的作用是为模型提供更准确和具体的指导,以便生成符合预期的文本。原创 2025-02-26 11:05:27 · 654 阅读 · 0 评论 -
DeepSeek 模型全览:探索不同类别的模型
DeepSeek 在 AI 领域的研究覆盖多个重要方向,包括 NLP、代码生成、多模态 AI、数学推理等。无论是开发者、研究人员还是 AI 爱好者,都可以从这些模型中找到适合自己需求的工具。未来,DeepSeek 可能会推出更多创新模型,让我们拭目以待!个人感觉DeepSeek的成功有以下几点。1. 开源和可访问性2. 验证了不需要监督微调(SFT),大规模强化学习(RL)训练的模型 R1-zero具有有强大的推理行为。3.知识蒸馏法,原创 2025-02-25 23:00:07 · 758 阅读 · 0 评论 -
DeepSeek-R1蒸馏模型
机器学习 (ML) 中的模型蒸馏是一种用于将知识从大型复杂模型(通常称为教师模型)转移到较小、更简单的模型(称为学生模型)的技术。目标是创建一个较小的模型,该模型保留了较大模型的大部分性能,同时在计算资源、内存使用和推理速度方面更高效。这对于在资源受限的环境(如移动设备或边缘计算系统)中部署模型特别有用。转载 2025-02-16 08:15:38 · 178 阅读 · 0 评论 -
大模型ReAct框架
AI Agent也就是AI智能体,是通过把大模型作为“大脑”,通过利用大模型的推理和规划能力,然后调用外部工具来完成复杂任务的一种方式。而如果后续需要开发更加复杂的业务功能,比如说金融行业的投资分析,需要非常复杂的业务分析等环节,这时只依靠大模型本身的能力就不行了。最后两个就是大模型的调用模块和业务的解析模块,大模型的调用模块相对比较简单,这里就不仔细说了,感兴趣的可以直接看代码。提示词是最重要的一个环节,我们知道大模型的能力是一方面,但怎么发挥大模型的能力是由提示词的质量决定的。原创 2025-02-13 00:42:36 · 919 阅读 · 0 评论 -
Deepseek 671B + Milvus 搭建个人知识库
至此,你应当已经顺利构建了自己的知识库系统。然而,除了具体的搭建流程,我认为。原创 2025-02-11 09:39:12 · 1263 阅读 · 0 评论 -
大模型实战--FastChat
本文重点介绍。使用FastChat快速部署LLM服务。原创 2025-02-10 16:24:09 · 1302 阅读 · 0 评论 -
DeepSeek + 本地知识库
是一款开箱即用的一体化 AI 应用,支持 RAG(检索增强生成)、AI 代理等功能。它无需编写代码或处理复杂的基础设施问题,适合快速搭建私有知识库和智能问答系统。通过和Ollama的结合,我们成功搭建了一个具备私有知识库能力的 AI 应用。私有知识库不仅可以让 AI 回答通用问题,还能基于私有文档(如企业内部资料、图书等)生成更精准的答案。注意: 随着知识库中文档数量的增加,回答的准确性可能会受到影响。建议将文档分散到多个工作区,以提高检索效率。个人知识库+本地大模型的优点第一。原创 2025-02-09 17:21:45 · 2051 阅读 · 0 评论 -
大模型之LangChain介绍
LangChain 就是一个 LLM 编程框架,你想开发一个基于 LLM 应用,需要什么组件它都有,直接使用就行;甚至针对常规的应用流程,它利用链(LangChain中Chain的由来)这个概念已经内置标准化方案了。下面我们从新兴的大语言模型(LLM)技术栈的角度来看看为何它的理念这么受欢迎。转载 2025-02-08 14:55:38 · 80 阅读 · 0 评论 -
如何训练一个大模型:LoRA篇
现在有很多开源的大模型,他们一般都是通用的,这就意味着这些开源大模型在特定任务上可能力不从心。为了适应我们的下游任务,就需要对预训练模型进行微调。 全参数微调有两个问题:在新的数据集上训练,会破坏大模型原来的能力,使其泛化能力急剧下降;而且现在的模型参数动辄几十亿上百亿,要执行全参数微调的话,他贵啊!! 于是LoRA出现了, LoRA(Low-Rank Adaptation)是微软提出的一种参数有效的微调方法,可以降低微调占用的显存以及更轻量化的迁移。同时解决了上述两个问题,那它转载 2025-02-01 15:21:58 · 162 阅读 · 0 评论 -
vLLM 部署大模型
vLLM 是来自 UC Berkeley 的 LMSYS 在 LLM 推理方面的最新工作(没错就是搞出 Vicuna 的那个 group),最大亮点是采用 Paged Attention 技术,结合 Continuous Batching,极大地优化了 realtime 场景下的 LLM serving 的 throughput 与内存使用。vllm github 仓库。转载 2025-01-31 18:09:25 · 222 阅读 · 0 评论 -
GGUF简介
GGUF 格式的全名为(GPT-Generated Unified Format),提到 GGUF 就不得不提到它的前身 GGML(GPT-Generated Model Language)。GGML 是专门为了机器学习设计的张量库,最早可 以追溯到 2022/10。其目的是为了有一个单文件共享的格式,并 且易于在不同架构的 GPU 和 CPU 上进行推理。但在后续的开发 中,遇到了灵活性不足、相容性及难以维护的问题。原创 2025-01-31 09:38:23 · 1115 阅读 · 0 评论 -
终于把 transformer 算法搞懂了!!
今天给大家分享一个强大的算法模型,transformerTransformer 算法是一种基于注意力机制(Attention Mechanism)的深度学习模型,最早由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出。与传统的循环神经网络(RNN)和长短期记忆网络(LSTM)不同,Transformer 完全基于注意力机制,实现了更高的并行性和更好的长距离依赖建模能力。原创 2025-01-27 08:27:37 · 719 阅读 · 0 评论 -
大模型正确调用方式
如果是AutoDl服务器,可以开启学术加速。本次使用腾讯云Cloud Studio,所以已经安装好了 Ollama。原创 2025-01-26 19:41:06 · 305 阅读 · 0 评论 -
Llama3的本地部署与调用测试
Llama3是Meta于2024年4月18日开源的LLM,目前开放了8B和 70B两个版本,两个版本均支持最大为8192个token的序列长度 ( GPT-4支持128K )Llama3在Meta自制的两个24K GPU集群上进行预训练,使用15T 的训练数据,其中5%为非英文数据,故Llama3的中文能力稍弱, Meta认为Llama3是目前最强的开源大模型。原创 2025-01-25 10:27:01 · 469 阅读 · 0 评论 -
GPU服务器配置与使用
GPU配置 输入invdia-smi, 可以看到是A10卡,24G显存。使用 pip install nvitop 进行安装即可。第一次连接,还需要注册阿里云的账号,手机号注册即可。魔塔社区对于新用户有100个小时免费GPU算力。实时查看显存占用情况 nvitop。原创 2025-01-25 09:08:58 · 500 阅读 · 0 评论 -
免费GPU算力,不花钱部署DeepSeek-R1
腾讯云Cloud Studio是一个基于云的集成开发环境(IDE),它提供了丰富的开发工具和资源,帮助开发者更高效地进行代码编写、调试和部署。最近,Cloud Studio推出了免费的GPU算力资源,用户每个月可以免费使用10000分钟的GPU服务器,配置为16G显存、32G内存和8核CPU。这对于需要高性能计算资源的开发者来说,无疑是一个巨大的福音。(用完后记得点关闭机器,下次微调再开启就可以了,环境自动保存,每个月10000分钟根本用不完)Ollama是一个开源的工具,专门用于管理和运行各种大模型。原创 2025-01-24 23:40:39 · 3614 阅读 · 0 评论 -
大模型之token的理解
Token 限制指的是大型语言模型(LLM)在单个输入中可以处理的最大 token 数量,包括输入文本和生成的输出。首先,token 是大型语言模型处理和生成文本的核心。然而,对于较长的文本,它的效率可能较低,因为模型需要处理更多的 token。例如,如果你在 GPT-3 中发送一个消耗 3900 个 token 的提示,模型只剩下 196 个 token 来提供响应,这可能不足以应对更复杂的查询。当我们在大型语言模型(LLMs)的背景下谈论分词时,重要的是要理解不同的方法用于将文本拆分成 token。原创 2025-01-17 10:56:31 · 496 阅读 · 0 评论 -
大模型之环境变量篇
我们在调用大模型接口的过程当中不可避免的要使用到 大模型的KEY,那么不同的系统有不同的环境变量的配置方式,下面将两种使用环境变量的方式做一个总结。新建 .env配置文件,在配置文件中写入自己的。使用独立的环境变量的配置文件。原创 2025-01-16 15:08:06 · 370 阅读 · 0 评论 -
大模型之工具篇
Conda是一个包和环境管理的工具。支持Windows、macOS和Linux。Conda可以快速的安装、运行和更新包和相关的依赖。Conda也可以轻易地创建、保存、加载和转换环境。Anaconda是一个用于科学计算的Python发行版,支持Linux,Mac,Windows,包含了conda、conda-build、Python和众多科学计算的包及其依赖。Miniconda是一个Anaconda的轻量级替代,默认只包含了conda,Python和一些它们所以依赖的包。原创 2025-01-16 11:31:11 · 1070 阅读 · 0 评论 -
AI应用开发先了解这些概念:智能体、LLM、RAG、提示词工程
一种基于LLM(LargeLanguage Model)的能够感知环境、做出决策并执行行动以实现特定目标的自主系统。与传统人工智能不同,Al Agent 模仿人类行为模式解决问题,通过独立思考和调用工具逐步完成给定目标,实现自主操作。大语言模型是一类基于深度学习的人工智能模型,旨在处理和生成自然语言文本。通过训练于大规模文本数据,使得大语言模型能够理解并生成与人类语言相似的文本,执行各类自然语言处理任务。LLM回答用户问题时,是基于训练LLM时使用的文本数据进行的。原创 2025-01-08 09:37:19 · 836 阅读 · 0 评论