论文标题:
FLEX-MIG: ENABLING DISTRIBUTED EXECUTION ON MIG
论文链接:
https://arxiv.org/pdf/2511.09143
一句话总结 (TL;DR)
这项研究解决了NVIDIA MIG技术在多租户GPU集群中导致的资源碎片化和利用率低下的问题,通过创新的“一对多”分配模型和修改的NCCL通信库,让单个AI任务能够跨多个MIG实例分布式执行,无需硬件改造即可提升集群效率。
研究背景:为什么这项研究很重要?
在多租户GPU集群中,中小型AI模型(如ResNet、MobileNet)往往无法充分利用整张GPU的计算和内存资源。虽然NVIDIA的MIG技术能够将一张物理GPU划分为多个硬件隔离的实例来提升并发性,但它在实际生产环境中暴露了四大痛点:
- 配置僵化:MIG只支持预定义的固定规格(如1g.5gb、2g.10gb),无法按需创建任意大小的实例
- 合并困难:由于硬件资源的树状结构,相邻的小实例常常无法合并成大实例
- 跨卡聚合不可行:分布在不同物理GPU上的MIG实例无法被同一个任务使用
- 重配置成本高:调整MIG分区需要清空整张GPU上的所有任务,过程长达数分钟
这些限制导致集群资源严重碎片化——明明有足够的空闲资源,却因为分布零散而无法分配给需要较大资源的任务,最终降低整个集群的吞吐量。
核心思想与方法:它的解决方案是什么?
Flex-MIG的核心思路很巧妙:既然硬件分区是僵化的,那我们就在软件层实现弹性聚合。具体来说,它做了三个关键设计

最低0.47元/天 解锁文章
514

被折叠的 条评论
为什么被折叠?



