GPUStack 0.2:开箱即用的分布式推理、CPU推理和调度策略

GPUStack 是一个专为运行大语言模型(LLM)设计的开源 GPU 集群管理器,旨在支持基于任何品牌的异构 GPU 构建统一管理的算力集群,无论这些 GPU 运行在 Apple Mac、Windows PC 还是 Linux 服务器上,GPUStack 都能将它们纳入统一的算力集群中。管理员可以从如 Hugging Face 等流行的大语言模型仓库中轻松部署任意 LLM,开发人员则可以像访问 OpenAI 或 Microsoft Azure 等供应商提供的公有 LLM 服务的 API 一样,简便地通过 OpenAI 兼容的 API 访问部署的私有 LLM。

GPUStack 自7月底发布以来,国内和海外社区的反响都非常热烈,研发团队收到了大量建议和反馈。我们综合评估了社区的需求和 GPUStack 的 Roadmap 计划,迅速发布了 GPUStack 0.2 版本。该版本新增了单机多卡分布式推理、跨主机分布式推理、纯 CPU 推理、Binpack 和 Spread 放置策略以及指定 Worker 调度、手动指定 GPU 调度等核心特性,并进一步扩展了对 Nvidia GPU 的支持范围,同时针对社区用户反馈的问题进行了增强和修复,以更好地满足各种使用场景的需求。

有关 GPUStack 的详细信息,可以访问:

GitHub 仓库地址: https://github.com/gpustack/gpustack

GPUStack 用户文档: https://docs.gpustack.ai

新特性介绍

分布式推理

GPUStack 0.2 版本的关键特性是支持开箱即用的单机多卡分布式推理和跨节点分布式推理,管理员无需复杂配置即可将大模型运行在单机的多个 GPU 或

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值