Qwen3模型名称中的A*B参数解析

最新推荐文章于 2025-05-21 15:58:32 发布

优维科技EasyOps

最新推荐文章于 2025-05-21 15:58:32 发布

阅读量171

点赞数 3

文章标签：人工智能

本文链接：https://blog.csdn.net/EasyOps_DevOps/article/details/148058526

版权

在Qwen大模型中，激活参数（Activated Parameters）是混合专家模型（MoE）架构中的核心概念，指在每次推理过程中实际被激活并参与计算的参数子集。这一设计通过动态选择部分专家网络来处理输入，从而在保持模型容量的同时大幅降低计算成本。以下是具体解析：

1. 激活参数的定义与作用

动态专家选择：

Qwen的MoE模型（如Qwen3-235B-A22B）由多个专家网络组成，每个输入仅激活其中的一部分专家（例如激活8个专家中的2个）。激活参数即指这些被选中的专家网络的参数。
降低计算成本：

例如，Qwen3-30B-A3B总参数为300亿，但每次推理仅激活30亿参数（占总参数的10%），却能实现与更大稠密模型相当的性能。
提升效率：

通过限制激活参数规模，模型在训练和推理时的显存占用、计算量显著减少，适合资源有限场景。

2. Qwen系列模型的激活参数实践

MoE模型示例：

- Qwen3-235B-A22B：总参数2350亿，激活220亿（约9.3%），在编程、数学等任务中超越DeepSeek-R1等模型。

- Qwen3-30B-A3B：总参数300亿，激活30亿（10%），性能超过Qwen2.5的32B模型。
稠密模型对比：

Qwen3-4B等小规模稠密模型通过优化激活策略，实现了与Qwen2.5-72B相当的推理能力。

3. 激活参数的技术优势

混合思维模式：

Qwen3支持思考模式（逐步推理）和非思考模式（快速响应），用户可通过指令（如/think或/no_think）动态调整激活参数的利用程度，平衡推理深度与速度。
优化资源配置：

通过控制激活参数比例，模型可根据任务复杂度自适应分配计算资源。例如，简单问题仅需少量激活参数快速响应，复杂问题则激活更多参数进行深度推理。

4. 开发者如何利用激活参数