
LLM Pruning
文章平均质量分 64
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
SlimGPT: Layer-wise Structured Pruning for Large Language Models
大型语言模型(LLM)因其在各个领域的卓越能力而受到广泛关注,其巨大的参数规模为实际部署带来了挑战。结构化修剪是一种平衡模型性能和效率的有效方法,但在计算资源约束下的性能恢复是修剪LLM的主要挑战。因此,我们提出了一种基于Brain Surgeon框架的低成本、快速的LLM结构化修剪方法SlimGPT。我们提出了批量贪婪修剪,用于快速和接近最优的修剪,通过分组Cholesky分解提高了头部修剪误差估计的准确性,并通过动态组大小提高了FFN的修剪效率,从而在一小时内实现了近似的局部最优修剪结果。原创 2025-02-03 09:00:00 · 134 阅读 · 0 评论 -
Adaptive Pruning for Large Language Models with Structural Importance Awareness
大型语言模型(LLM)的最新进展显著提高了语言理解和生成能力。然而,由于LLM的高计算和存储资源需求,很难在资源受限的边缘设备上部署LLM。为了解决这个问题,我们提出了一种新的LLM模型修剪方法,即结构感知自适应修剪(SAAP),以在保持模型性能的同时显著降低计算和内存成本。我们首先定义了一个自适应重要性融合度量,通过考虑它们的同方差不确定性来评估LLM中所有耦合结构的重要性。然后,我们对所有模块的重要性进行排序,以确定应该修剪以满足特定性能要求的特定层。原创 2025-01-21 09:15:00 · 129 阅读 · 0 评论