速读顶会论文：用软件层破解MIG显卡的资源碎片化难题

原创

于 2025-12-12 07:42:31 发布 · 718 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

论文标题：

FLEX-MIG: ENABLING DISTRIBUTED EXECUTION ON MIG

论文链接：

https://arxiv.org/pdf/2511.09143

一句话总结 (TL;DR)

这项研究解决了NVIDIA MIG技术在多租户GPU集群中导致的资源碎片化和利用率低下的问题，通过创新的“一对多”分配模型和修改的NCCL通信库，让单个AI任务能够跨多个MIG实例分布式执行，无需硬件改造即可提升集群效率。

研究背景：为什么这项研究很重要？

在多租户GPU集群中，中小型AI模型（如ResNet、MobileNet）往往无法充分利用整张GPU的计算和内存资源。虽然NVIDIA的MIG技术能够将一张物理GPU划分为多个硬件隔离的实例来提升并发性，但它在实际生产环境中暴露了四大痛点：

配置僵化：MIG只支持预定义的固定规格（如1g.5gb、2g.10gb），无法按需创建任意大小的实例
合并困难：由于硬件资源的树状结构，相邻的小实例常常无法合并成大实例
跨卡聚合不可行：分布在不同物理GPU上的MIG实例无法被同一个任务使用
重配置成本高：调整MIG分区需要清空整张GPU上的所有任务，过程长达数分钟

这些限制导致集群资源严重碎片化——明明有足够的空闲资源，却因为分布零散而无法分配给需要较大资源的任务，最终降低整个集群的吞吐量。

核心思想与方法：它的解决方案是什么？

Flex-MIG的核心思路很巧妙：既然硬件分区是僵化的，那我们就在软件层实现弹性聚合。具体来说，它做了三个关键设计

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

狐师傅

关注关注

23
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

速读顶会论文：KVSWAP——磁盘感知的KV缓存卸载技术，突破设备端长上下文推理内存墙

qq_36071928的博客

12-10

514

KVSWAP 通过将大型语言模型推理中的关键-值（KV）缓存智能卸载到磁盘，并动态预测和预加载关键条目，解决了设备端长上下文推理的内存瓶颈问题，在紧内存预算下实现了吞吐量的大幅提升（如NVMe上1.8倍，eMMC上4.1倍），同时保持生成质量。KVSWAP 是首个针对设备端长上下文推理的磁盘KV缓存卸载框架，通过智能预测、分组I/O和缓存重用，打破了内存容量墙。它不仅证明了在资源受限设备上高效运行大模型的可行性，更为边缘计算提供了可扩展的解决方案，是LLM部署技术的重要跃进。

速读顶会论文：用“碎片感知”调度算法破解多租户GPU资源浪费难题

qq_36071928的博客

12-08

782

摘要（149字）：本文针对NVIDIA MIG多租户云场景中的GPU资源碎片化问题，提出一种在线调度算法MFI。通过动态量化分区约束下的碎片程度，采用最小增量贪心策略选择最优分配方案。实验表明，该算法在未知负载条件下使任务接受率提升10%，资源利用率接近理论最优，尤其擅长处理小任务主导的高碎片场景。研究为硬件分区环境下的资源调度提供了实用解决方案，可直接提升云服务商的GPU集群收益。

参与评论您还未登录，请先登录后发表或查看评论

速读顶会论文：DOPD: 动态调整预填充与解码资源，大幅提升LLM推理效率

qq_36071928的博客

12-06

1147

这篇论文提出了DOPD，一个动态的LLM推理服务系统，它通过实时监控负载并动态调整“预填充”和“解码”两个阶段的GPU资源比例，解决了静态资源分配下的效率失衡问题，从而将系统有效吞吐量提升最高达1.5倍，并显著降低响应延迟。DOPD论文的贡献在于，它敏锐地指出了LLM解耦推理架构中的一个关键但被忽视的问题——静态资源分配与动态负载不匹配，并提出了一个行之有效的动态解决方案。它并非创造一个全新的架构，而是在现有先进架构之上，增加了一个“智能调度大脑”，通过动态寻优P/D比例和智能请求调度。

速读顶会论文：用Python+Triton实现多GPU通信性能新突破

qq_36071928的博客

12-11

648

AMD研究院推出的Iris库彻底改变了多GPU编程模式，首次在Python和Triton中实现原生多GPU通信，让开发者只需添加几行代码就能实现计算与通信的细粒度重叠，性能提升高达1.79倍。Iris的突破性不在于发明了新算法，而在于重新思考了多GPU编程的抽象层次。它证明了一个重要观点：高性能不一定需要低级语言，良好的抽象设计同样能够实现极致性能。这项研究的核心价值是将多GPU编程的复杂性从“工程问题”转变为“编程模型问题”，让普通开发者也能轻松实现之前需要专家团队才能完成的性能优化。

速读顶会论文：Beluga——用CXL内存池高效管理LLM的KVCache

qq_36071928的博客

12-07

1086

摘要：论文《Beluga: A CXL-Based Memory Architecture for Scalable and Efficient LLM KVCache Management》提出了一种基于CXL交换机的共享内存架构，解决大型语言模型推理中KVCache内存容量不足和访问延迟高的问题。通过CXL协议实现GPU直接访问远程内存池，替代传统RDMA方案，显著降低延迟（首令牌生成时间缩短89.6%）并提升吞吐量（7.35倍）。实验显示，Beluga在长上下文处理中表现优异，尤其支持稀疏KVCac

速读顶会论文：太空太阳能AI计算集群的可行性突破

qq_36071928的博客

12-07

911

太空AI计算集群：可持续AI基础设施的新范式 Google研究团队提出在近地轨道构建太阳能供电的AI计算集群，通过密集卫星编队（81颗卫星，半径1公里）和高速光通信（10Tbps带宽），解决AI计算的能源与带宽瓶颈。实验验证了TPU芯片的太空适用性（耐受15krad辐射）和光通信可行性（1.6Tbps演示），经济分析表明2035年发射成本或降至200美元/公斤，使太空AI计算成本与地面相当。该方案为AI的可持续发展提供了突破性思路，将计算移至能量源头——太空，实现8倍于地面的持续太阳能利用，标志着从&quo

速读顶会论文：10CACHE——优化LLM训练内存效率的智能缓存系统

qq_36071928的博客

12-09

1187

10CACHE解决了大型语言模型（LLM）训练中GPU内存不足导致的效率瓶颈，通过创新的异构资源感知张量缓存与迁移技术，将训练速度提升至多2倍，并显著提高内存利用率。10CACHE通过“预测式张量调度”和“多级内存池化”，实现了LLM训练效率的阶跃式提升。它不仅是一项内存优化技术，更为云原生AI训练提供了可扩展、低成本的工程范本，有望加速大模型的普及化进程。

速读顶会论文：AIvailable——异构GPU上的低成本LLM服务架构

qq_36071928的博客

12-10

482

这项研究解决了在异构和旧GPU硬件上部署大语言模型（LLM）服务的难题，提出了一种软件定义的架构AIvailable，通过动态资源调度和统一接口，实现了高可用性和低成本LLM服务，使中小企业和学术机构能利用现有硬件本地运行LLM。AIvailable的贡献在于用“软件定义”思维破解了硬件异构性难题，它不是一个追求极致性能的系统，而是一个务实、低成本的解决方案。这项技术让LLM服务从云端巨头的专利，变成了普通组织触手可及的工具，真正推动了生成式AI的民主化。

如何用AI处理音乐音频消除作品信息里的 AI 痕迹-程序员音乐人卓伊凡

一颗优雅草科技-央千澈的CSDN博客~只想无穷无尽的学习~作息早8-晚8

12-11

671

如何用AI处理音乐音频消除作品信息里的 AI 痕迹-程序员音乐人卓伊凡

精品数据分享 | 锂电池数据集（七）同济大学电池数据集

最新发布

12-11

603

本期继续分享一篇Nature communicationTop论文公开锂离子电池数据，划重点-数据集开源，代码开源！！！

【论文速递】2025年第34周(Aug-17-23)(Robotics/Embodied AI/LLM)

淋曦的进击手记

12-07

1861

自我监督的学习有望消除对手动数据注释的需求，从而使模型能够毫不费力地扩展到大规模的数据集和较大的体系结构。通过不针对特定的任务或领域量身定制，这种训练范式有可能使用单个算法从不同的来源学习视觉表示形式，从自然到航空图像。该技术报告介绍了Dinov3，这是通过利用简单而有效的策略来实现这一愿景的主要里程碑。首先，我们利用仔细的数据准备，设计和优化来扩展数据集和模型大小的好处。其次，我们介绍了一种称为GRAM锚定的新方法，该方法有效地解决了长期训练时间表中已知但未解决的密集特征映射降解的问题。

宝马，如何建设一座AI汽车工厂？｜产业AI案例

chanyejiawang的博客

12-08

1406

AI汽车时代来袭

神经网络 | 从线性结构到可学习非线性

画心

12-08

911

CNN、Transformer、ONN（Operational Neural Network）和KAN

大模型的监督微调基础详解

AggressiveYu的博客

12-10

930

在预训练完毕之后，我们的模型已经成为了一个学习完所有知识的学生，但是他缺乏用适当的方式表达知识的能力，还是停留在续写文本的阶段，无法直接回答我们的问题，所以监督微调这个时候就出来了，这个指令微调的作用，就是让模型在预训练的基础上，通过特定的数据和训练，让模型能够更好的回答用户的问题。预训练一般包括三大要素，网络结构，损失函数，训练数据。指令微调和预训练的方式几乎没有区别，只是训练数据的不同。

创始人IP与AI融合：重构信任与引领变革

ckjrxdn的博客

12-08

280

通过个人品牌的塑造，企业能够增强与用户之间的情感连接，提升认同感。举办此次峰会，是希望帮助更多中小企业家认识到技术趋势与品牌建设的重要性，从而更好地把握未来发展机遇。另一方面，人工智能能够全面提升企业在内容创作、客户转化等环节的效率，助力构建可持续的商业系统。活动汇聚了来自全球的创始人、行业专家及媒体代表，共同探讨在人工智能与个人品牌价值并重的时代背景下，企业如何应对挑战、实现持续发展。本次峰会还设置了多场主题分享与圆桌对话，聚焦人工智能的应用前景与未来商业趋势，为参会者提供了交流与合作的平台。

获客软件VertGrow AI销冠助力全新私域获客策略

VertGrow的博客

12-08

565

在竞争激烈的市场中，获客软件VertGrow AI销冠成为企业实现主动获客的重要工具。VertGrow AI销冠凭借先进的AI技术，助力企业制定全新私域获客策略，通过精细化管理，提高客户转化率，实现高效获客。无论是小型创业公司还是大型企业，都能通过这一解决方案获得显著提升，开启高效的客户获取之旅。

AI大模型中的MCP协议核心设计原理

猫哥的沉淀、积累、总结。天天学习，好好向上...c/c++,嵌入式 linux,Android,HarmonyOS，AIOT)

12-07

1015

MCP协议是Anthropic提出的标准化AI模型与外部工具交互的通信协议。文章从核心设计、路由机制、安全控制三方面解析MCP：采用JSON-RPC 2.0增强实现，支持多种通信模式；通过动态注册表和智能路由策略实现分布式调度；设计安全沙箱保障执行安全。企业案例显示其延迟<120ms、可用性达99.995%。MCP显著提升工具接入效率，降低40%+资源消耗，推动AI工具生态发展。

2025金融风控：AI实战四步法

AIyingxiaoganhuo的博客

12-10

907

回望来路，金融风控的进化史，是从依赖个人经验的“老师傅”模式，到依赖流程制度的“标准化”模式。而站在2025年的今天，我们正迎来第三次浪潮的全面来临：从“经验驱动”到“数据驱动”的智能风控时代。

华为链路聚合原理

qq_23930765的博客

12-07

864

摘要：链路聚合（Eth-Trunk）通过捆绑多个物理接口提升带宽、可靠性和负载分担能力。LACP协议（IEEE 802.3ad）实现自动协商与维护，通过系统优先级、密钥等字段管理聚合组。华为设备支持手工负载分担、静态LACP（推荐）和动态LACP三种模式，其中静态LACP可配置活动接口上限实现备份。配置时需保持两端参数一致，成员接口需速率/模式相同。LACP模式相比手工模式具有更快的故障检测能力，STP将其视为单条逻辑链路。三层聚合时IP需配置在Eth-Trunk接口上。