论文主要内容与创新点总结
一、主要内容
本文针对多区域大规模语言模型(LLM)推理服务中资源利用率低、成本高的问题,提出了跨区域负载均衡器SkyLB。传统区域本地部署方式需为每个区域按峰值需求配置资源,导致资源浪费;而简单的集中式负载均衡又会引入高延迟。SkyLB通过以下设计实现高效跨区域负载均衡:
- 两层跨区域路由架构:每个区域部署本地负载均衡器,协同处理跨区域流量,避免集中式瓶颈。
- 前缀感知路由机制:通过一致性哈希(SkyLB-CH)和区域前缀树快照(SkyLB)维护键值缓存(KV-Cache)局部性,提升缓存命中率。
- 基于待处理请求的选择性推送:动态监控副本的待处理请求队列,避免过载,平衡负载。
实验表明,SkyLB相比现有方案吞吐量提升1.12-2.06倍,延迟降低1.74-6.30倍,总成本降低25%。
二、创新点
- 跨区域流量聚合与成本优化:首次提出利用多区域昼夜流量模式