
AI篇
文章平均质量分 84
素雪风华
这芸芸众生谁不曾如此任性?
展开
-
7GB显存如何部署bf16精度的DeepSeek-R1 70B大模型?
本文介绍了在AutoDL算力云平台上通过优化显存管理技术,成功在7GB显存下运行DeepSeek-R170B大模型的过程。通过降低模型精度至bfloat16,显存需求减少50%,再通过INT4对称量化,模型体积压缩至原始尺寸的25%(140G→35G)。结合vLLM PageAttention显存管理引擎,显存碎片率降低80%以上,并启用GPU-CPU交换空间,进一步降低显存需求。最终,在单机单卡7GB显存下成功启动模型,尽管推理速度较慢(0.4token/s),但展示了在有限资源下运行大模型的可行性。原创 2025-05-19 18:34:09 · 906 阅读 · 0 评论 -
构建RAG混合开发---PythonAI+JavaEE+Vue.js前端的实践
构建RAG混合开发---通过PythonAI加载大模型以及RAG知识库,结合Java访问Python与Vue.js前端的实践交互案例原创 2025-05-15 19:40:05 · 941 阅读 · 0 评论 -
大模型LLMs的MCP入门
MCP的简单入门,以及自己对MCP的理解原创 2025-04-15 17:39:11 · 747 阅读 · 0 评论 -
使用LangGraph构建多代理Agent、RAG
使用LangGraph构建多代理Agent原创 2025-04-03 16:22:12 · 1139 阅读 · 0 评论 -
大模型LLMs框架Langchain之工具Tools
大模型LLMs基于Langchain的Tools工具使用原创 2025-03-28 19:58:41 · 493 阅读 · 0 评论 -
大模型LLMs框架Langchain之内存管理
大模型LLMs框架Langchain之内存管理 --- redis版本和本地内存版本原创 2025-03-28 17:11:27 · 186 阅读 · 0 评论 -
大模型LLM基于PEFT的LoRA微调详细步骤
大模型微调完整精简版本原创 2025-03-13 11:55:12 · 308 阅读 · 0 评论 -
大模型LLM基于PEFT的LoRA微调详细步骤---第一篇:模型下载篇
大模型下载、语言模型下载原创 2025-03-13 12:57:10 · 850 阅读 · 0 评论 -
大模型LLM基于PEFT的LoRA微调详细步骤---第二篇:环境及其详细流程篇
基于PEFT参数高效微调的LORA实战代码原创 2025-03-13 15:02:08 · 1183 阅读 · 0 评论 -
大模型LLMs基于Langchain+FAISS+Ollama/Deepseek/Qwen/OpenAI的RAG检索方法以及优化
大模型LLMs基于Langchain+FAISS+Ollama/Deepseek/Qwen/OpenAI的RAG检索方法以及优化原创 2025-03-28 13:36:49 · 1275 阅读 · 0 评论 -
大模型LLMs框架Langchain之链详解
大模型LLMs框架Langchain之链详解原创 2025-03-28 16:55:44 · 616 阅读 · 0 评论