
混合专家模型
文章平均质量分 94
Sherlock Ma
研究生在读,致力于分享编程技术。主要研究人工智能相关,包括大模型、AIGC等。偶尔也会更新Java内容
展开
-
Qwen3技术报告解读:训练秘籍公开,推理与非推理模型统一,大模型蒸馏小模型(报告详细解读)
在本技术报告中,作者介绍了Qwen3,这是Qwen系列的最新版本。Qwen3具备思考模式和非思考模式,使用户能够动态管理用于复杂思考任务的token数量。该模型在包含36万亿token的庞大语料库上进行了预训练,能够理解和生成119种语言和方言的文本。通过一系列全面的评估,Qwen3在预训练和后训练模型的标准基准测试中均展现出强劲的性能,涵盖编码生成、数学、推理和代理等任务。在未来的研究中,作者将重点关注以下几个关键领域。作者将继续扩大预训练规模,使用质量更高、内容更丰富的数据。原创 2025-05-16 17:30:23 · 1156 阅读 · 0 评论 -
Qwen3:重磅开源,重夺开源第一!(包含详细使用教程)
Qwen3 代表了人类在通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的一个重要里程碑。通过扩大预训练和强化学习的规模,之子实现了更高层次的智能。作者无缝集成了思考模式与非思考模式,为用户提供了灵活控制思考预算的能力。此外,作者还扩展了对多种语言的支持,帮助全球更多用户。原创 2025-04-29 12:14:44 · 2526 阅读 · 1 评论 -
Seed-Thinking-v1.5:字节豆包新推理模型发布,200B参数战胜Deepseek
字节跳动旗下的豆包团队正式发布了其最新的推理模型——Seed-Thinking-v1.5,该模型在多个方面展现出了明显的技术优势。这一进展不仅推动了推理模型的发展,还引发了同行业内的高度关注,标志着AI技术在通用推理能力上的一个重要里程碑。原创 2025-04-12 18:29:30 · 1185 阅读 · 0 评论 -
LLaMA 4深夜发布:重夺开源第一!首个使用MoE架构的LLaMA模型
Meta公司于2025年4月6日发布的Llama 4模型系列无疑为这场竞赛注入了新的活力。作为Meta首个基于混合专家(MoE)架构的模型系列,Llama 4以其卓越的性能、创新的设计和极高的性价比,迅速在开源模型领域崭露头角,甚至在某些方面超越了当前行业内的顶尖模型。这一系列的发布不仅标志着Llama生态系统进入了一个新的时代,也引发了整个AI行业对多模态模型和高效计算架构的广泛关注。原创 2025-04-06 20:02:06 · 1391 阅读 · 0 评论 -
原生稀疏注意力:Deepseek又一重磅开源!实现高效的大模型超长文本建模!
这篇论文介绍了一种名为NSA(Native Sparse Attention)的新型稀疏注意力机制,旨在解决长文本建模中标准注意力机制计算成本高昂的问题。NSA通过结合算法创新和硬件优化,实现了高效的长文本建模,同时保持了模型的性能。NSA作为一种硬件对齐的稀疏注意力架构,通过分层的稀疏策略和可训练的设计,在保持全注意力性能的同时,显著降低了计算成本,为长文本建模提供了一种高效且实用的解决方案。原创 2025-02-22 14:27:58 · 1285 阅读 · 0 评论 -
混元大模型:腾讯开源的目前最大的MoE模型(论文代码详解)
最近,腾讯的Hunyuan团队推出了一款名为Hunyuan-Large的开源模型,这是一款基于Transformer的Mixture of Experts(MoE)模型,拥有惊人的3890亿参数和52亿激活参数,能够处理高达256K的token。这篇文章详细介绍了Hunyuan-Large的设计、性能和开源细节,它在多个基准测试中表现出色,包括语言理解和生成、逻辑推理、数学问题解决、编程、长文本处理和聚合任务等。原创 2024-11-25 17:23:05 · 3442 阅读 · 2 评论