
AI
文章平均质量分 96
探索云原生
一个云原生打工人的探索之路,专注云原生,Go,坚持分享最佳实践、经验干货。
同名 GZH 【探索云原生】欢迎关注~
展开
-
一文搞懂 GPU 共享方案: NVIDIA Time Slicing
本文介绍了GPU共享方案,特别是NVIDIA的Time Slicing技术,旨在通过超额订阅(oversubscription)实现多个Pod共享同一物理GPU,从而提升资源利用率。文章详细阐述了Time Slicing的配置步骤,包括创建Time Slicing配置、修改集群策略以启用Time Slicing,以及可选地为不同节点打上标签以应用不同策略。通过这种方式,可以在Kubernetes环境中实现GPU资源的共享,避免资源浪费。尽管Time Slicing方案存在内存和故障隔离的不足,但其简单易用的原创 2025-05-13 12:18:11 · 612 阅读 · 0 评论 -
大模型微调实战:通过 LoRA 微调修改模型自我认知
本文主要分享如何使用 LLaMAFactory 实现大模型微调,基于 Qwen1.5-1.8B-Chat 模型进行 LoRA 微调,修改模型自我认知。more本文的一个目的:基于模型进行微调,修改模型自我认证。修改前对于模型,用户问你是谁?时模型一般会回答我们希望在微调之后,对于同样的问题,模型能回答。原创 2025-04-16 12:46:59 · 684 阅读 · 0 评论 -
大模型微调基本概念指北
大模型微调,通常指有监督微调(Supervised Fine-Tuning, SFT),是在预训练模型(一般称为“基座模型”)的基础上进行的训练过程。预训练模型通常已经掌握了广泛的语言知识和语义表示,但为了让模型在特定任务或领域上表现得更好,我们会在特定任务的数据集上对其进行微调。1)Language Model,LM:一个预训练语言模型 LM,对基础模型微调得到一个微调后的模型使用人工标注的数据对预训练模型进行监督微调,以获得初始版本的生成模型。2)原创 2025-01-16 13:40:40 · 1201 阅读 · 0 评论 -
大模型推理指南:使用 vLLM 实现高效推理
大模型推理有多种方式比如最基础的 HuggingFace TransformersTGIvLLM其中,热度最高的应该就是 vLLM,性能好的同时使用也非常简单,本文就分享一下如何使用 vLLM 来启动大模型推理服务。根据 vLLM 官方博客所说:进行了 NVIDIA A10 GPU 上推理 LLaMA-7 B 和 在 NVIDIA A100 GPU(40 GB)上推理 LLaMA-13 B 两个实验,原创 2024-11-21 14:31:58 · 2246 阅读 · 0 评论