SkyLB: A Locality-Aware Cross-Region Load Balancer for LLM Inference

论文主要内容与创新点总结

一、主要内容

本文针对多区域大规模语言模型(LLM)推理服务中资源利用率低、成本高的问题,提出了跨区域负载均衡器SkyLB。传统区域本地部署方式需为每个区域按峰值需求配置资源,导致资源浪费;而简单的集中式负载均衡又会引入高延迟。SkyLB通过以下设计实现高效跨区域负载均衡:

  1. 两层跨区域路由架构:每个区域部署本地负载均衡器,协同处理跨区域流量,避免集中式瓶颈。
  2. 前缀感知路由机制:通过一致性哈希(SkyLB-CH)和区域前缀树快照(SkyLB)维护键值缓存(KV-Cache)局部性,提升缓存命中率。
  3. 基于待处理请求的选择性推送:动态监控副本的待处理请求队列,避免过载,平衡负载。

实验表明,SkyLB相比现有方案吞吐量提升1.12-2.06倍,延迟降低1.74-6.30倍,总成本降低25%。

二、创新点
  1. 跨区域流量聚合与成本优化:首次提出利用多区域昼夜流量模式
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值