歌刎-CSDN博客

原创 AAAI 2025 杰出论文揭晓：顶尖AI研究聚焦多智能体优化、神经符号推理与生物多样性计算

本文聚焦人工智能领域顶级会议 AAAI 2025，该会议于 2 月 25 日 - 3 月 4 日在美国费城举行，录用率 23.4%。会议公布的杰出论文奖成果显著。南京大学周志华团队等三篇论文获奖，还有一篇获 “AI 对社会影响特别奖”。获奖论文涵盖多智能体优化、神经符号推理等前沿方向，如周志华团队提出溯因反思框架解决神经符号推理冲突，多伦多大学优化算法降低多智能体匹配失真度等。这些研究不仅实现理论突破，还在医疗、资源分配等多领域有重要应用，为智能技术 “向善” 发展注入新动力，再次印证 AI 在学术与产业的

2025-03-04 00:14:38 3657

原创从 Transformer 到 DeepSeek-R1：大型语言模型的变革之路与前沿突破

本文详述大型语言模型（LLM）自 2017 年至 2025 年的发展历程。以 Transformer 架构为起点，其自注意力机制革新自然语言处理范式。随后 BERT、GPT 等模型相继涌现，GPT-3 展示出少样本和零样本学习能力，但 “幻觉” 问题凸显。2022 年 ChatGPT 通过 SFT 和 RLHF 技术应对该问题并引发全球关注。2023 - 2024 年多模态模型兴起，同时开源模型发展迅速。2024 年推理模型强调增强推理能力。

2025-03-02 00:54:01 1380

原创 DeepSeek开源周Day6：DeepSeek V3、R1 推理系统深度解析，技术突破与行业启示

本文深入剖析了 DeepSeek 发布的 V3/R1 推理系统，该系统以 545% 的成本利润率和单节点 8,575 tokens/s 的吞吐量刷新大模型推理性能认知。其核心技术突破包括专家并行革命，通过多 GPU 分布专家提升吞吐量、优化内存与降低延迟；通信 - 计算重叠优化，利用双批次流水线减少通信延迟与 GPU 空闲时间；三级负载均衡体系，实现各阶段负载均衡。系统架构涵盖路由层、缓存系统等核心组件。

2025-03-02 00:19:58 2246

原创 DeepSeek开源周Day5: 3FS存储系统与AI数据处理新标杆

本文聚焦 DeepSeek 开源周最后一天发布的 3FS 和 smallpond 项目。3FS 作为分布式文件系统，通过解耦式存储资源池、CRAQ 强一致性协议和无状态元数据服务，在存储性能上实现重大突破，实测读吞吐量达 6.6TiB/s，并在数据预处理等多个应用场景展现优势。smallpond 则是基于 DuckDB 和 3FS 的轻量级大数据处理框架，具备无状态计算范式、智能数据分片和混合执行引擎等亮点，在 110TB 排序测试中仅需 30 分钟，硬件成本低。文中还对比了 OpenAI GPT - 4.

2025-02-28 23:52:55 1560

原创 DeepSeek开源周Day4：三连发！突破 AI 训练瓶颈的立体解决方案，并行计算三剑客DualPipe、EPLB与Profile-data

DeepSeek 在开源周第四天发布 DualPipe、EPLB 与 Profile - data 三个项目，旨在解决千亿级参数 AI 模型训练的核心难题。DualPipe 实现前向与反向传播双向并行，像双向高速路减少设备等待；EPLB 作为智能调度系统，解决混合专家模型中负载不均衡等问题；Profile - data 则透明化分析训练过程，精准定位优化点。文中对比了相关技术的发展与优劣，展示其实测效果，并阐述其对行业在成本、生态及技术普及方面的影响，还对关键术语进行了解释。

2025-02-27 22:58:05 1269 1

原创 DeepSeek开源周Day3：DeepGEMM-深度学习计算新标杆，300行代码释放FP8极致性能，全面加速MoE大模型训练推理

eepSeek 开源周第三日发布 DeepGEMM，这是专为 NVIDIA Hopper 架构优化的 FP8 矩阵乘法库。其核心代码仅约 300 行，却在性能上超越 CUTLASS 3.6。文中解析了 FP8 精度和 GEMM 的重要性，通过实测展示其在标准矩阵计算和 MoE 模型中的优化表现。介绍了架构创新，包括张量内存加速器和即时编译技术，以及针对 MoE 模型的专项优化。还提供了快速部署指南，并对技术进行展望，解释了相关专业术语。

2025-02-26 19:42:26 932

原创 DeepSeek开源周Day2：DeepEP - 专为 MoE 模型设计的超高效 GPU 通信库

本文介绍了 DeepSeek 开源的高性能通信库 DeepEP。它专为混合专家模型（MoE）和专家并行（EP）场景设计，旨在解决大模型训练中 GPU 间数据通信的瓶颈问题。文中阐述了其核心功能与设计理念，包括域间带宽优化、低精度计算支持、通信 - 计算重叠等技术亮点。通过性能实测展示了在不同场景下的出色表现，如高吞吐、低延迟等。还介绍了架构设计、快速入门指南、高级调优建议、应用场景与案例等，并提及了开源生态和注意事项。DeepEP 的推出标志着 MoE 训练进入新阶段，有望推动千亿级模型突破训练效率边界。

2025-02-25 13:15:46 2317

原创 DeepSeek开源周Day1：FlashMLA引爆AI推理性能革命！

DeepSeek 于 2025 年 2 月 24 日 9 点（北京时间）开源「FlashMLA」，引发社区热烈反响。该项目专为 Hopper 架构 GPU 优化，上线 45 分钟获 400+ Star，3 小时突破 2.7k 星标。文中详细解析了其核心技术，包括硬件级优化、动态序列处理、开箱即用等亮点，对比了传统 MHA 和创新 MLA 的效率差异，阐述了 MLA 通过低秩变换实现知识共享，减少冗余计算，提升硬件效率的原理，并列举了分块 KV 缓存等三大黑科技。还以 32k 上下文的 175B 模型为例说明

2025-02-24 19:57:02 1731

原创 DeepSeek近日发布论文Native Sparse Attention：硬件对齐且可原生训练的稀疏注意力机制

本文聚焦于自然语言处理领域长序列建模的难题，介绍一种名为 NSA（Natively trainable Sparse Attention）的硬件对齐且原生可训练的稀疏注意力机制。阐述了其核心贡献、技术突破点及现实影响，包括首次实现硬件对齐的稀疏注意力机制，在长序列处理上显著提升效率等。详细说明了其方法原理、整体框架、算法设计、内核设计，通过实验对比评估其性能，分析效率，并探讨了相关工作、替代策略的挑战、可视化结果等，最后总结了 NSA 在长上下文建模中的优势和前景。文中还提供了论文地址、代码仓库及领域专家

2025-02-24 18:02:13 1333

原创华为昇腾 910B 部署 DeepSeek-R1 蒸馏系列模型详细指南

本文全面记录了在华为昇腾 910B (65GB) * 8 上部署 DeepSeekR1 蒸馏系列模型（14B、32B）的全过程及测试结果。涵盖模型下载、权重转换、环境依赖安装、镜像拉取与启动、环境确认以及模型服务启动配置设置等环节。文中详细介绍了每一步的操作命令和注意事项，并对可能出现的问题提供了相应的解决方法和建议，为相关技术人员提供了完整且实用的部署参考。

2025-02-17 16:28:17 8926 3

原创全面解析 Cursor：AI 编程神器的安装、配置与无线续杯使用

文详细介绍了 Cursor 这款 AI 编辑器，它基于 VSCode 开发，能构建高效人机协作编程环境。文中阐述了选择 Cursor 的原因，包括自然语言编程、强大的代码修改能力、上下文理解等核心优势。还涵盖了 Cursor 的安装与注册、配置与中文设置、插件安装与使用、基础功能与实用技巧，如智能代码补全、AI 对话等。此外，介绍了重置订阅与白嫖方案、可选模型配置，并提供了相关的其他资源链接。无论您是程序员还是产品经理，本文都能助您深入了解并掌握 Cursor 这一强大的编程工具。

2025-02-13 12:51:28 1426 1

原创华为昇腾部署 DeepSeek-R1 (671B) 大模型实战指南

本文是一份全面的华为昇腾 Atlas 800I A2 服务器集群部署 DeepSeek-R1 671B 大模型的指南。内容涵盖部署前的硬件和软件要求、模型权重处理（包括下载、格式转换）、昇腾镜像配置（获取、启动及测试）、分布式推理配置、服务化部署（环境变量配置、参数修改、拉起服务及接口测试）、高级量化方案（支持类型和量化命令示例），还提供了常见问题排查方法和丰富的资源链接，助力用户完成在华为昇腾平台上的模型部署。

2025-02-11 03:00:00 12687 3

原创 DeepSeek R1 “顿悟时刻”(Aha Moment) 的重现与探索：基于 GRPO 的倒计时游戏训练

本文聚焦于 DeepSeek R1 的发布，介绍了其在行业中的震撼影响。作者尝试使用组相对策略优化（GRPO）和倒计时游戏重现 DeepSeek R1 的 “顿悟时刻”。文中详细阐述了开发环境设置、训练样本生成、使用 GRPO 训练模型（包括奖励函数的定义和训练参数设置）、分布式训练示例、训练结果观察等内容。

2025-02-10 21:09:45 1231

原创 DeepSeek R1 蒸馏系列模型测评，生产落地部署极致性价比评估

本文深度评测了 DeepSeek R1 近期开源的蒸馏系列模型。从模型指标、成本、性能、能力多个维度进行对比测试，通过对模型版权、资源需求、实际部署后显存占用和并发性能测试，以及逻辑推理、语言理解等多方面能力测评，全面分析各模型的优劣。最终揭晓性价比最高的模型，同时探讨模型在实际应用中的优化思路，为你在模型选择与应用上提供极具价值的参考。

2025-02-09 00:08:47 8496 3

原创 Linux 快速部署DeepSeek-R1 蒸馏系列模型

本文记录使用 ms-Swift 框架对 DeepSeekR1 蒸馏系列模型（7B、14B）在 A100（40GB）* 1 服务器上部署过程与测试结果。

2025-02-08 14:35:14 3053 1

原创 DeepSeek R1 大模型信息汇总！本地部署与使用技巧大全

想掌握 DeepSeek R1 大模型的使用技巧吗？这篇文章帮你搞定。文中会为你提供超详细的本地部署教程，哪怕是技术小白也能轻松上手。此外，还分享了丰富的新手和高级使用技巧，无论是日常使用还是深度挖掘模型潜力，都能让你收获满满，快速成为 DeepSeek R1 使用高手。

2025-02-08 10:50:01 2876 1

原创 ms-swift3.1.0 发布，多项新特性与新模型数据集来袭

ms-swift3.1.0 于 PyPI 发布，有新特性如数据采样等，新模型 Qwen 等系列，还有新数据集，快来了解。

2025-02-07 21:58:46 428

原创 SWIFT & EvalScope：魔搭社区大模型微调部署与评测的强大利器

本文主要介绍了魔搭社区的两大重要框架 ——SWIFT 和 EvalScope。SWIFT（Scalable lightWeight Infrastructure for Fine-Tuning）是大模型与多模态大模型微调部署框架，ms-swift 3.0 已发布，支持 450 + 大模型及 150 + 多模态大模型的训练等环节，汇集多种训练技术，支持加速与量化，还提供 Web - UI 界面。EvalScope 是模型评测与性能基准测试框架，支持多种模型类型和评测场景，内置常用测试基准和指标，且与 ms -

2025-02-07 21:51:59 1165 1

原创持续更新 | 大模型与多模态训练部署利器：魔搭社区ms-swift框架完全指南

这篇博文主要围绕 SWIFT（Scalable lightWeight Infrastructure for Fine-Tuning）展开。它欢迎各类贡献，如 Feature PR、Bug 反馈等。博文中介绍了丰富的数据集，包括多种 VCR、MMBench 等相关数据集，还给出了数据集具体介绍的查看链接。同时，提供了中英文文档、论文链接等资源，方便用户了解。另外，还有关于许可的说明，框架使用 Apache License (Version 2.0) 进行许可，模型和数据集需查看原资源页面遵守对应 Licen

2025-02-07 21:43:58 1872

MnivL的博客

原创 AAAI 2025 杰出论文揭晓：顶尖AI研究聚焦多智能体优化、神经符号推理与生物多样性计算

原创从 Transformer 到 DeepSeek-R1：大型语言模型的变革之路与前沿突破

原创 DeepSeek开源周Day6：DeepSeek V3、R1 推理系统深度解析，技术突破与行业启示

原创 DeepSeek开源周Day5: 3FS存储系统与AI数据处理新标杆

原创 DeepSeek开源周Day4：三连发！突破 AI 训练瓶颈的立体解决方案，并行计算三剑客DualPipe、EPLB与Profile-data

原创 DeepSeek开源周Day3：DeepGEMM-深度学习计算新标杆，300行代码释放FP8极致性能，全面加速MoE大模型训练推理

原创 DeepSeek开源周Day2：DeepEP - 专为 MoE 模型设计的超高效 GPU 通信库

原创 DeepSeek开源周Day1：FlashMLA引爆AI推理性能革命！

原创 DeepSeek近日发布论文Native Sparse Attention：硬件对齐且可原生训练的稀疏注意力机制

原创华为昇腾 910B 部署 DeepSeek-R1 蒸馏系列模型详细指南

原创全面解析 Cursor：AI 编程神器的安装、配置与无线续杯使用

原创华为昇腾部署 DeepSeek-R1 (671B) 大模型实战指南

原创 DeepSeek R1 “顿悟时刻”(Aha Moment) 的重现与探索：基于 GRPO 的倒计时游戏训练

原创 DeepSeek R1 蒸馏系列模型测评，生产落地部署极致性价比评估

原创 Linux 快速部署DeepSeek-R1 蒸馏系列模型

原创 DeepSeek R1 大模型信息汇总！本地部署与使用技巧大全

原创 ms-swift3.1.0 发布，多项新特性与新模型数据集来袭

原创 SWIFT & EvalScope：魔搭社区大模型微调部署与评测的强大利器

原创持续更新 | 大模型与多模态训练部署利器：魔搭社区ms-swift框架完全指南

原创 Docker 零基础入门、理论加实战教程

原创 Linux 离线安装 Docker 与 Docker Compose：一站式技术实操指南

原创从 0 到 1 超详细！服务器显卡驱动与 CUDA 安装秘籍，一文全掌握

原创消费级 PC 本地部署 DeepSeek-R1满血版 (671B)指南

原创 V100 上用 ms-swift 框架部署 DeepSeek-R1-Distill-Qwen-14B 超全攻略

原创 2025 最新 DeepSeek-R1-Distill-Qwen-14B vLLM 部署全攻略：从环境搭建到性能测试(V100-32GB * 2)

原创探秘 DeepSeek-R1：推理大语言模型的深度解析与启示

原创 V100 上用 ms-swift 框架部署 DeepSeek-R1-Distill-Qwen-7B 超全攻略

原创 2025 最新 DeepSeek-R1-Distill-Qwen-7B vLLM 部署全攻略：从环境搭建到性能测试(V100-32GB)

原创 2025 深度学习必备：Torch 离线安装超详细指南，一文攻克版本适配与环境搭建难题

原创 Ubuntu 与 CentOS 系统：Anaconda 在线及离线快速安装全教程

原创 modelscope 魔搭社区模型下载

Docke 离线安装包（Linux-arrch64）

Docker 离线安装包（Linux-x86）[CentOS、Ubuntu都支持]

deepspeed-0.14.3-py3-none-any.whl

torch-2.5.1+cu121-cp312-cp312-linux-x86-64.whl