KeyarchOS(KOS)+VLLM部署deepseek推理服务

目录

1 概述

2 环境准备

3 部署安装

3.1 安装docker

3.2 下载vllm镜像

3.3 下载deepseek模型到本地服务器

3.4 运行vllm容器

3.5 运行deepseek推理服务

3.6 访问推理服务


1 概述

浪潮信息KOS是浪潮信息基于Linux Kernel、OpenAnolis等开源技术自主研发的一款服务器操作系统,支持x86、ARM等主流架构处理器,性能和稳定性居于行业领先地位,具备成熟的 CentOS 迁移和替换能力,可满足云计算、大数据、分布式存储、人工智能、边缘计算等应用场景需求。详细介绍见官网链接https://www.ieisystem.com/kos/product-kos-xq.thtml?id=12126

vLLM是一种用于大规模语言模型(LLM)推理的框架,旨在提高模型的吞吐量和降低延迟。vLLM通过优化内存管理和调度策略,显著提升了模型在高并发场景下的性能。vLLM利用了一种名为PagedAttention的注意力机制,该机制借鉴了虚拟内存和分页技术,以减少缓存内存(KV Cache)的浪费,并允许在请求之间灵活共享KV缓存。这种设计使得vLLM在保持与现有系统相同延迟水平的情况下,能够将吞吐量提高2到4倍。官方网址:https://www.vllm.ai

2 环境准备

操作系统版本:KOS 5.8 sp2u1(5.10.134-17.2.2.kos5.x86_64)

测试架构:x86_64,96核1TB物理机

显卡:NVIDIA Tesla V100s * 2

3 部署安装

3.1 安装docker

执行yum install docker –y 安装docker服务

执行systemctl start docker启动docker服务

3.2 下载vllm镜像

执行 docker pull vllm/vllm-openai:latest

可能会遇到下载失败或者速度较慢的情况,推荐使用国内源下载,例如:

docker pull docker.1ms.run/vllm/vllm-openai:latest

3.3 下载deepseek模型到本地服务器

国内推荐从HF-Mirror:https://hf-mirror.com上下载deepseek模型:

将下载好的模型拷贝到服务器空间较大的磁盘目录,推荐放到固态硬盘上,可以提高模型加载速度,例如:

3.4 运行vllm容器

创建容器:

docker run --name ds-vllm-test --gpus all -ti --privileged -v /root/:/workspace -v /data/:/data --ipc=host -p 8090:8090 --security-opt seccomp=unconfined --entrypoint /bin/sh docker.1ms.run/vllm/vllm-openai:latest

其中:

参数作用说明
​--name ds-vllm-test容器命名指定容器名称为 ds-vllm-test,便于后续管理(如 docker stop ds-vllm-test)。
​--gpus allGPU支持允许容器访问宿主机所有GPU
-ti分配伪终端并交互式运行-t 分配终端,-i 保持交互
​--privileged特权模式赋予容器几乎与宿主机相同的权限(可访问所有设备,慎用)。适合需要深度系统控制的场景。
​-v /root/:/workspace挂载卷将宿主机的 /root/ 目录挂载到容器的 /workspace,实现文件共享。
​-v /data/:/data挂载卷将宿主机的 /data/ 目录挂载到容器的 /data。
​--ipc=hostIPC命名空间共享容器与宿主机共享进程间通信(IPC)命名空间,常用于多进程高性能应用(如共享内存)。
​-p 8090:8090端口映射将容器的 8090 端口映射到宿主机的 8090 端口,允许外部访问容器服务。
​--security-opt seccomp=unconfined禁用安全限制关闭容器的默认安全策略(seccomp),提升容器权限(可能降低安全性)。
​--entrypoint /bin/sh覆盖入口点将容器默认启动命令替换为 /bin/sh,直接进入交互式Shell(而非镜像定义的默认命令)。
​docker.1ms.run/vllm/vllm-openai:latest镜像地址指定使用的容器镜像

输入exit退出交互页面,然后执行docker start ds-vllm-test 启动容器:

进入容器:

docker exec -it ds-vllm-test bash

3.5 运行deepseek推理服务

执行命令:

vllm serve "/data/ssdmodels/DeepSeek-R1-Distill-Llama-8B" --max-model-len 4096 --tensor-parallel-size 2 --port 8090 --dtype half --served-model-name DeepSeek-R1-Distill-Llama-8B

其中:

参数作用深度学习场景下的关键意义推荐值/选项
​/data/ssdmodels/DeepSeek-R1-Distill-Llama-8B模型路径支持HuggingFace模型ID(如facebook/opt-1.3b)或本地路径(需为绝对路径)。必填
​--max-model-len 4096最大序列长度控制模型处理的上下文大小(token数),直接影响显存占用。需根据模型训练长度和GPU显存调整(如7B模型通常设2048-4096)
​--tensor-parallel-size 2张量并行GPU数将模型参数拆分到多张GPU(如2卡并行推理8B模型)。必须≤可用GPU数,8B模型建议2-4卡
​--port 8090服务监听端口指定API服务的HTTP端口(默认8000),需与Docker映射端口一致。避免使用知名端口(如80/443)
​--dtype half计算数据类型half表示FP16精度(省显存),float为FP32(更精确但显存翻倍)。大多数GPU推荐half(A100/H100支持bfloat16)
​--served-model-name DeepSeek-R1-Distill-Llama-8B服务暴露的模型名称客户端通过此名称访问模型(如API路径/v1/models/DeepSeek-R1-Distill-Llama-8B)。建议与模型实际名称一致

显示上图所示表示推理服务已启动成功。

3.6 访问推理服务

另起一个shell窗口,执行命令:

curl http://localhost:8090/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "DeepSeek-R1-Distill-Llama-8B", "prompt": "介绍下deepseek", "max_tokens": 100, "temperature": 0 }'

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值