Ai学习的老章 | 阿里Qwen3 全部情报汇总,本地部署指南,性能全面超越 DeepSeek R1

本文来源公众号“Ai学习的老章”,仅用于学术分享,侵权删,干货满满。

原文链接:阿里Qwen3 全部情报汇总,本地部署指南,性能全面超越 DeepSeek R1

R2 还没落地,Qwen3 来了。

开源 8 款模型:6 款 Dense 模型 +2 款 MoE 模型

技术细节大家可以看看 Qwen 技术博客,建议点开看看,干货很多:https://qwenlm.github.io/blog/qwen3/

图片

8 个不同尺寸的模型,照顾到了所有场景:

6 款 Dense 模型:

0.6B、1.7B、4B、8B、14B、32B

2 款 MoE 模型:

Qwen3-235B-A22B (MoE, 总大小 235B, 激活参数 22B, 上下文 128K)

Qwen3-30B-A3B (MoE, 总大小 30B, 激活参数 3B, 上下文 128K)

混合思维模式,搭载了 thinking 开关,可以直接手动控制要不要开启 thinking

最大的这个 Qwen3-235B-A22B 在强劲性能的基础上,部署成本仅为 Deepseek R1 的 35%。

Qwen3-30B-A3B 的激活参数只有 3B,性能却可以跟 QWQ-32B 打平,成本只有 10%,可以在消费级显卡上部署。

0.6B 的小参数模型适合在移动设备上部署。

图片

在性能上 Qwen 3 的每个尺寸得分都是同尺寸开源最强。

Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 相比,表现出极具竞争力的结果。

此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹

图片

正如博客所说,Qwen 朋友圈非常强大,昨晚已发布,一众伙伴就 0day 级支持

图片

你可以在 Qwen 官网直接与 Qwen3v 不同参数模型直接对话:https://chat.qwen.ai/

图片

本地部署

ollama

模型页:https://ollama.com/library/qwen3

运行:ollama run qwen3

其他尺寸,在后面加参数即可,比如:ollama run qwen3:32b

可以在提示词后输入 /no_think 来切换 Ollama 中的无思考模式。

备注⚠️:ollama 运行的是量化版,效果有折扣

LM Studio

地址:https://lmstudio.ai/

图片

图片

vLLM

图片

需要升级到 v0.8.4 以上,最好 v0.8.5

地址:https://github.com/vllm-project/vllm/issues/17327

vllm serve Qwen/Qwen3-235B-A22B-FP8 --enable-reasoning --reasoning-parser deepseek_r1 --tensor-parallel-size 4

SGLang

需要升级到SGLang 0.4.6.post1

地址:https://github.com/sgl-project/sglang

pip3 install "sglang[all]>=0.4.6.post1"

python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B --tp 8 --reasoning-parser qwen3

python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B-FP8 --tp 4 --reasoning-parser qwen3

图片

CPU 部署

llama.cpp

可以用 llama.cpp 运行起 Qwen3 量化版本、动态量化版本!

地址:https://huggingface.co/collections/unsloth/qwen3-680edabfb790c8c34a242f95

OpenRouterAI

openrouter 提供了免费的 API

地址:https://openrouter.ai/models?order=newest&q=qwen3

图片

KTransformer

Xeon 铂金 4 代 + 4090 运行 Qwen3-235B-A22B 单个请求可以达到 13.8 token/s, 4 个请求并行可以达到总计 24.4 token/s

地址:http://github.com/kvcache-ai/ktransformers/blob/main/doc/en/AMX.md

Mac

图片

Mac 上也可以跑 Qwen3 了

地址:https://github.com/ml-explore/mlx-lm/commit/5c2c18d6a3ea5f62c5b6ae7dda5cd9db9e8dab16

pip install -U mlx-lm
# or
conda install -c conda-forge mlx-lm

支持设备

  • iPhone:  0.6B, 4B

  • Macbook: 8B, 30B, 3B/30B MoE

  • M2, M3 Ultra: 22B/235B MoE

Qwen3 优点还有很多,我正在下载,随后再发本地部署后的测试情况:

  • Qwen3 是全球最强开源模型,性能全面超越 DeepSeek R1,国内第一个敢说全面超越 R1 的模型,之前都是比肩

  • Qwen3 是国内首个混合推理模型,复杂答案深度思考,简单答案直接秒回,自动切换,提升智力 + 节省算力双向奔赴

  • 模型部署要求大幅降低,旗舰模型仅需 4 张 H20 就能本地部署,部署成本估算下来是能比 R1 下降超 6 成

  • Agent 能力大幅提升,原生支持 MCP 协议,提升了代码能力,国内的 Agent 工具都在等它

  • 支持 119 种语言和方言,包括爪哇语、海地语等地方性语言,全世界都可以用上 AI

  • 训练数据 36 万亿 token,相比 Qwen2.5 直接翻倍,不仅从网络抓取内容,还大量提取 PDF 的内容、大量合成代码片段

  • 模型部署要求大幅降低,旗舰模型仅需 4 张 H20 就能本地部署,是 R1 的三分之一

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

### DeepSeek-R1-Distill-Qwen 模型本地部署与训练 对于希望在本地环境中部署和训练 DeepSeek-R1-Distill-Qwen 模型的开发者而言,理解该模型的特点及其操作流程至关重要。此部分将详细介绍如何准备环境、获取必要的资源以及执行具体的命令来完成这些目标。 #### 准备工作 为了顺利地进行本地部署与训练,确保安装了 Python 和 pip 工具,并配置好虚拟环境以隔离项目依赖项。此外,还需确认 GPU 是否可用并已正确设置 CUDA 及 cuDNN 版本,因为这有助于加速计算过程[^1]。 #### 获取模型及相关工具 前往 GitHub 上的 DeepSeek-V3 仓库下载所需文件,特别是针对 DeepSeek-R1-Distill-Qwen 模型的部分。这里不仅提供了预训练权重,还包含了用于推理和服务启动的相关脚本。 #### 安装依赖库 根据官方文档说明,在终端中依次输入如下指令来安装所需的 Python 库: ```bash pip install -r requirements.txt ``` 上述命令会依据 `requirements.txt` 文件自动解析并安装所有必需包,从而简化前期准备工作。 #### 启动服务 利用 vLLM 提供的服务端口可以轻松实现 API 接口调用功能。具体来说,可以通过下面这条简单的命令快速启动 HTTP 服务器: ```bash python serve.py --model-path ./path_to_model/ ``` 其中 `./path_to_model/` 需要替换为实际存储模型的位置路径。一旦成功启动,则可通过浏览器或其他客户端发送请求来进行交互测试。 #### 训练自定义数据集 如果打算基于现有基础上进一步优化性能或适配特定领域任务,则可能涉及到微调 (fine-tuning) 过程。此时建议参照官方给出的例子代码作为模板修改参数设定,比如批次大小(batch size),学习率(learning rate)等超参调整策略;同时准备好标注好的语料库以便后续迭代更新使用。 值得注意的是,由于 DeepSeek-R1-Distill 是经过蒸馏处理得到的小规模版本,因此其结构相对简单且易于管理维护,同时也保持了一定程度上的表现力[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值