自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 AAAI 2025 杰出论文揭晓:顶尖AI研究聚焦多智能体优化、神经符号推理与生物多样性计算

本文聚焦人工智能领域顶级会议 AAAI 2025,该会议于 2 月 25 日 - 3 月 4 日在美国费城举行,录用率 23.4%。会议公布的杰出论文奖成果显著。南京大学周志华团队等三篇论文获奖,还有一篇获 “AI 对社会影响特别奖”。获奖论文涵盖多智能体优化、神经符号推理等前沿方向,如周志华团队提出溯因反思框架解决神经符号推理冲突,多伦多大学优化算法降低多智能体匹配失真度等。这些研究不仅实现理论突破,还在医疗、资源分配等多领域有重要应用,为智能技术 “向善” 发展注入新动力,再次印证 AI 在学术与产业的

2025-03-04 00:14:38 3657

原创 从 Transformer 到 DeepSeek-R1:大型语言模型的变革之路与前沿突破

本文详述大型语言模型(LLM)自 2017 年至 2025 年的发展历程。以 Transformer 架构为起点,其自注意力机制革新自然语言处理范式。随后 BERT、GPT 等模型相继涌现,GPT-3 展示出少样本和零样本学习能力,但 “幻觉” 问题凸显。2022 年 ChatGPT 通过 SFT 和 RLHF 技术应对该问题并引发全球关注。2023 - 2024 年多模态模型兴起,同时开源模型发展迅速。2024 年推理模型强调增强推理能力。

2025-03-02 00:54:01 1380

原创 DeepSeek开源周Day6:DeepSeek V3、R1 推理系统深度解析,技术突破与行业启示

本文深入剖析了 DeepSeek 发布的 V3/R1 推理系统,该系统以 545% 的成本利润率和单节点 8,575 tokens/s 的吞吐量刷新大模型推理性能认知。其核心技术突破包括专家并行革命,通过多 GPU 分布专家提升吞吐量、优化内存与降低延迟;通信 - 计算重叠优化,利用双批次流水线减少通信延迟与 GPU 空闲时间;三级负载均衡体系,实现各阶段负载均衡。系统架构涵盖路由层、缓存系统等核心组件。

2025-03-02 00:19:58 2246

原创 DeepSeek开源周Day5: 3FS存储系统与AI数据处理新标杆

本文聚焦 DeepSeek 开源周最后一天发布的 3FS 和 smallpond 项目。3FS 作为分布式文件系统,通过解耦式存储资源池、CRAQ 强一致性协议和无状态元数据服务,在存储性能上实现重大突破,实测读吞吐量达 6.6TiB/s,并在数据预处理等多个应用场景展现优势。smallpond 则是基于 DuckDB 和 3FS 的轻量级大数据处理框架,具备无状态计算范式、智能数据分片和混合执行引擎等亮点,在 110TB 排序测试中仅需 30 分钟,硬件成本低。文中还对比了 OpenAI GPT - 4.

2025-02-28 23:52:55 1560

原创 DeepSeek开源周Day4:三连发!突破 AI 训练瓶颈的立体解决方案,并行计算三剑客DualPipe、EPLB与Profile-data

DeepSeek 在开源周第四天发布 DualPipe、EPLB 与 Profile - data 三个项目,旨在解决千亿级参数 AI 模型训练的核心难题。DualPipe 实现前向与反向传播双向并行,像双向高速路减少设备等待;EPLB 作为智能调度系统,解决混合专家模型中负载不均衡等问题;Profile - data 则透明化分析训练过程,精准定位优化点。文中对比了相关技术的发展与优劣,展示其实测效果,并阐述其对行业在成本、生态及技术普及方面的影响,还对关键术语进行了解释。

2025-02-27 22:58:05 1269 1

原创 DeepSeek开源周Day3:DeepGEMM-深度学习计算新标杆,300行代码释放FP8极致性能,全面加速MoE大模型训练推理

eepSeek 开源周第三日发布 DeepGEMM,这是专为 NVIDIA Hopper 架构优化的 FP8 矩阵乘法库。其核心代码仅约 300 行,却在性能上超越 CUTLASS 3.6。文中解析了 FP8 精度和 GEMM 的重要性,通过实测展示其在标准矩阵计算和 MoE 模型中的优化表现。介绍了架构创新,包括张量内存加速器和即时编译技术,以及针对 MoE 模型的专项优化。还提供了快速部署指南,并对技术进行展望,解释了相关专业术语。

2025-02-26 19:42:26 932

原创 DeepSeek开源周Day2:DeepEP - 专为 MoE 模型设计的超高效 GPU 通信库

本文介绍了 DeepSeek 开源的高性能通信库 DeepEP。它专为混合专家模型(MoE)和专家并行(EP)场景设计,旨在解决大模型训练中 GPU 间数据通信的瓶颈问题。文中阐述了其核心功能与设计理念,包括域间带宽优化、低精度计算支持、通信 - 计算重叠等技术亮点。通过性能实测展示了在不同场景下的出色表现,如高吞吐、低延迟等。还介绍了架构设计、快速入门指南、高级调优建议、应用场景与案例等,并提及了开源生态和注意事项。DeepEP 的推出标志着 MoE 训练进入新阶段,有望推动千亿级模型突破训练效率边界。

2025-02-25 13:15:46 2317

原创 DeepSeek开源周Day1:FlashMLA引爆AI推理性能革命!

DeepSeek 于 2025 年 2 月 24 日 9 点(北京时间)开源「FlashMLA」,引发社区热烈反响。该项目专为 Hopper 架构 GPU 优化,上线 45 分钟获 400+ Star,3 小时突破 2.7k 星标。文中详细解析了其核心技术,包括硬件级优化、动态序列处理、开箱即用等亮点,对比了传统 MHA 和创新 MLA 的效率差异,阐述了 MLA 通过低秩变换实现知识共享,减少冗余计算,提升硬件效率的原理,并列举了分块 KV 缓存等三大黑科技。还以 32k 上下文的 175B 模型为例说明

2025-02-24 19:57:02 1731

原创 DeepSeek近日发布论文Native Sparse Attention:硬件对齐且可原生训练的稀疏注意力机制

本文聚焦于自然语言处理领域长序列建模的难题,介绍一种名为 NSA(Natively trainable Sparse Attention)的硬件对齐且原生可训练的稀疏注意力机制。阐述了其核心贡献、技术突破点及现实影响,包括首次实现硬件对齐的稀疏注意力机制,在长序列处理上显著提升效率等。详细说明了其方法原理、整体框架、算法设计、内核设计,通过实验对比评估其性能,分析效率,并探讨了相关工作、替代策略的挑战、可视化结果等,最后总结了 NSA 在长上下文建模中的优势和前景。文中还提供了论文地址、代码仓库及领域专家

2025-02-24 18:02:13 1333

原创 华为昇腾 910B 部署 DeepSeek-R1 蒸馏系列模型详细指南

本文全面记录了在华为昇腾 910B (65GB) * 8 上部署 DeepSeekR1 蒸馏系列模型(14B、32B)的全过程及测试结果。涵盖模型下载、权重转换、环境依赖安装、镜像拉取与启动、环境确认以及模型服务启动配置设置等环节。文中详细介绍了每一步的操作命令和注意事项,并对可能出现的问题提供了相应的解决方法和建议,为相关技术人员提供了完整且实用的部署参考。

2025-02-17 16:28:17 8926 3

原创 全面解析 Cursor:AI 编程神器的安装、配置与无线续杯使用

文详细介绍了 Cursor 这款 AI 编辑器,它基于 VSCode 开发,能构建高效人机协作编程环境。文中阐述了选择 Cursor 的原因,包括自然语言编程、强大的代码修改能力、上下文理解等核心优势。还涵盖了 Cursor 的安装与注册、配置与中文设置、插件安装与使用、基础功能与实用技巧,如智能代码补全、AI 对话等。此外,介绍了重置订阅与白嫖方案、可选模型配置,并提供了相关的其他资源链接。无论您是程序员还是产品经理,本文都能助您深入了解并掌握 Cursor 这一强大的编程工具。

2025-02-13 12:51:28 1426 1

原创 华为昇腾部署 DeepSeek-R1 (671B) 大模型实战指南

本文是一份全面的华为昇腾 Atlas 800I A2 服务器集群部署 DeepSeek-R1 671B 大模型的指南。内容涵盖部署前的硬件和软件要求、模型权重处理(包括下载、格式转换)、昇腾镜像配置(获取、启动及测试)、分布式推理配置、服务化部署(环境变量配置、参数修改、拉起服务及接口测试)、高级量化方案(支持类型和量化命令示例),还提供了常见问题排查方法和丰富的资源链接,助力用户完成在华为昇腾平台上的模型部署。

2025-02-11 03:00:00 12687 3

原创 DeepSeek R1 “顿悟时刻”(Aha Moment) 的重现与探索:基于 GRPO 的倒计时游戏训练

本文聚焦于 DeepSeek R1 的发布,介绍了其在行业中的震撼影响。作者尝试使用组相对策略优化(GRPO)和倒计时游戏重现 DeepSeek R1 的 “顿悟时刻”。文中详细阐述了开发环境设置、训练样本生成、使用 GRPO 训练模型(包括奖励函数的定义和训练参数设置)、分布式训练示例、训练结果观察等内容。

2025-02-10 21:09:45 1231

原创 DeepSeek R1 蒸馏系列模型测评,生产落地部署极致性价比评估

本文深度评测了 DeepSeek R1 近期开源的蒸馏系列模型。从模型指标、成本、性能、能力多个维度进行对比测试,通过对模型版权、资源需求、实际部署后显存占用和并发性能测试,以及逻辑推理、语言理解等多方面能力测评,全面分析各模型的优劣。最终揭晓性价比最高的模型,同时探讨模型在实际应用中的优化思路,为你在模型选择与应用上提供极具价值的参考。

2025-02-09 00:08:47 8496 3

原创 Linux 快速部署DeepSeek-R1 蒸馏系列模型

本文记录使用 ms-Swift 框架 对 DeepSeekR1 蒸馏系列模型(7B、14B)在 A100(40GB)* 1 服务器上部署过程与测试结果。

2025-02-08 14:35:14 3053 1

原创 DeepSeek R1 大模型信息汇总!本地部署与使用技巧大全

想掌握 DeepSeek R1 大模型的使用技巧吗?这篇文章帮你搞定。文中会为你提供超详细的本地部署教程,哪怕是技术小白也能轻松上手。此外,还分享了丰富的新手和高级使用技巧,无论是日常使用还是深度挖掘模型潜力,都能让你收获满满,快速成为 DeepSeek R1 使用高手。

2025-02-08 10:50:01 2876 1

原创 ms-swift3.1.0 发布,多项新特性与新模型数据集来袭

ms-swift3.1.0 于 PyPI 发布,有新特性如数据采样等,新模型 Qwen 等系列,还有新数据集,快来了解。

2025-02-07 21:58:46 428

原创 SWIFT & EvalScope:魔搭社区大模型微调部署与评测的强大利器

本文主要介绍了魔搭社区的两大重要框架 ——SWIFT 和 EvalScope。SWIFT(Scalable lightWeight Infrastructure for Fine-Tuning)是大模型与多模态大模型微调部署框架,ms-swift 3.0 已发布,支持 450 + 大模型及 150 + 多模态大模型的训练等环节,汇集多种训练技术,支持加速与量化,还提供 Web - UI 界面。EvalScope 是模型评测与性能基准测试框架,支持多种模型类型和评测场景,内置常用测试基准和指标,且与 ms -

2025-02-07 21:51:59 1165 1

原创 持续更新 | 大模型与多模态训练部署利器:魔搭社区ms-swift框架完全指南

这篇博文主要围绕 SWIFT(Scalable lightWeight Infrastructure for Fine-Tuning)展开。它欢迎各类贡献,如 Feature PR、Bug 反馈等。博文中介绍了丰富的数据集,包括多种 VCR、MMBench 等相关数据集,还给出了数据集具体介绍的查看链接。同时,提供了中英文文档、论文链接等资源,方便用户了解。另外,还有关于许可的说明,框架使用 Apache License (Version 2.0) 进行许可,模型和数据集需查看原资源页面遵守对应 Licen

2025-02-07 21:43:58 1872

原创 Docker 零基础入门、理论加实战教程

本教程深入剖析 Docker 这一强大的容器化技术,助力读者快速掌握并熟练运用。从基础概念如镜像、容器的讲解,到网络配置、数据持久化等进阶操作,再到 Docker Compose 和 Swarm 在多容器及集群环境的实战应用,涵盖理论与实践。通过 5 万字的详细阐述,为开发与运维人员提供全面的知识体系,帮助解决应用部署和管理难题,提升工作效率,是踏入 Docker 世界、构建高效云原生架构的必备指南 。

2025-02-07 20:31:41 681

原创 Linux 离线安装 Docker 与 Docker Compose:一站式技术实操指南

在 Linux 系统的开发与运维中,Docker 和 Docker Compose 是不可或缺的工具。但网络环境限制时,在线安装往往受阻。本文将为你详细讲解如何在 Linux 系统中进行 Docker 与 Docker Compose 的离线安装,从下载适配不同架构的离线包,到一步步完成安装、配置,每一步都有清晰的实操指导,帮助你突破网络限制,顺利搭建起容器化环境 。

2025-02-07 17:34:34 914

原创 从 0 到 1 超详细!服务器显卡驱动与 CUDA 安装秘籍,一文全掌握

无论是 Linux 还是 Windows 系统,从查看显卡信息、精准下载适配驱动,到 CUDA 安装与环境变量配置,每一步都有超详细步骤与贴心避坑指南。更有 torch 版本下载、cuDNN 安装等干货,手把手带你攻克技术难题,让你的服务器显卡性能满血释放,轻松开启高效深度学习之旅 。

2025-02-07 17:02:53 1750

原创 消费级 PC 本地部署 DeepSeek-R1满血版 (671B)指南

当多数人还在惊叹 DeepSeek 破圈时,技术达人已在悄悄行动。你敢想象在普通消费级 PC 上,成功部署运行 DeepSeek-R1 671B 吗?这不再是天方夜谭。本文将带你深入探索这一技术奇迹,从模型选择、硬件需求剖析,到详细的部署步骤讲解,还有实测效果大揭秘。无论你是 AI 小白还是技术大神,都能从中找到乐趣与启发

2025-02-07 13:11:20 20418 3

原创 V100 上用 ms-swift 框架部署 DeepSeek-R1-Distill-Qwen-14B 超全攻略

本文详细介绍如何运用 ms-swift 框架在 V100 设备上部署 DeepSeek-R1-Distill-Qwen-14B 模型。开篇明确所需环境,如 x86_64 架构、ubuntu 22.04 或 centos 7 系统、V100 GPU 等。接着依次阐述依赖安装、模型下载步骤,还展示推理测试、部署测试及并发测试过程。

2025-02-07 12:20:24 2300 1

原创 2025 最新 DeepSeek-R1-Distill-Qwen-14B vLLM 部署全攻略:从环境搭建到性能测试(V100-32GB * 2)

本文详细介绍了在 2025 年进行 DeepSeek-R1-Distill-Qwen-14B 模型基于 vLLM 的部署过程。从环境准备开始,包括硬件与软件环境要求,如特定的操作系统、GPU 型号、Python 版本、CUDA 及 PyTorch 版本等,指导读者完成基础环境搭建。接着深入依赖安装环节,细致讲解了使用 conda 创建虚拟环境、pip 换源加速下载依赖包以及安装 CUDA 和 PyTorch 的要点,并提供检查安装是否成功的方法。

2025-02-06 20:32:10 10893 7

原创 探秘 DeepSeek-R1:推理大语言模型的深度解析与启示

本文围绕推理大语言模型中的佼佼者 DeepSeek - R1 展开深度剖析。开篇阐述推理模型定义与应用场景,明确其在复杂任务中的优势。接着详细介绍 DeepSeek - R1 的训练流程,包括 R1 - Zero、R1 和 R1 - Distill 三种变体的训练差异。深入解读构建和改进推理模型的四种方法,对比分析其特性。同时探讨 DeepSeek - R1 与 o1 的性能差异、训练成本,并分享小成本训练推理模型的策略

2025-02-06 19:24:33 742

原创 V100 上用 ms-swift 框架部署 DeepSeek-R1-Distill-Qwen-7B 超全攻略

本文详细介绍如何运用 ms - swift 框架在 V100 设备上部署 DeepSeek - R1 - Distill - Qwen - 7B 模型。开篇明确所需环境,如 x86_64 架构、ubuntu 22.04 或 centos 7 系统、V100 GPU 等。接着依次阐述依赖安装、模型下载步骤,还展示推理测试、部署测试及并发测试过程。

2025-02-06 18:54:45 2176

原创 2025 最新 DeepSeek-R1-Distill-Qwen-7B vLLM 部署全攻略:从环境搭建到性能测试(V100-32GB)

本文详细介绍了在 2025 年进行 DeepSeek-R1-Distill-Qwen-7B 模型基于 vLLM 的部署过程。从环境准备开始,包括硬件与软件环境要求,如特定的操作系统、GPU 型号、Python 版本、CUDA 及 PyTorch 版本等,指导读者完成基础环境搭建。接着深入依赖安装环节,细致讲解了使用 conda 创建虚拟环境、pip 换源加速下载依赖包以及安装 CUDA 和 PyTorch 的要点,并提供检查安装是否成功的方法。

2025-02-06 13:22:07 3986 1

原创 2025 深度学习必备:Torch 离线安装超详细指南,一文攻克版本适配与环境搭建难题

在深度学习领域,PyTorch 框架的核心库 torch 的安装至关重要。本文为 2025 年深度学习开发者精心准备,全面且详细地阐述了 torch 的离线安装全过程。从 torch 与 torchvision、torchaudio 版本对应关系的精准解读,到指定版本 whl 包的下载路径分享;从 pip、conda 等不同环境下 torch 及相关 cuda 依赖的安装方法,到自动检测 CUDA 版本安装 torch 的 Python 脚本展示,还涵盖了安装过程中常见错误点分析与解决办法。

2025-02-06 09:47:10 1692

原创 Ubuntu 与 CentOS 系统:Anaconda 在线及离线快速安装全教程

本文聚焦于在 Ubuntu 和 CentOS 系统上快速安装 Anaconda 的方法,涵盖在线与离线两种安装模式。详细阐述了从下载安装包、添加执行权限、运行脚本到同意许可协议、选择安装路径、初始化 Anaconda 及激活环境变量等一系列步骤,同时提供验证安装是否成功的方法和常见问题的解决办法,帮助读者顺利完成 Anaconda 安装

2025-02-06 09:20:58 1444

原创 modelscope 魔搭社区模型下载

魔搭社区模型快速下载

2025-02-06 08:59:12 1210

Docke 离线安装包(Linux-arrch64)

docker-27.1.1-arm64, 国产ARM架构的docker离线安装包

2025-02-07

Docker 离线安装包 (Linux-x86)[CentOS、Ubuntu都支持]

Docker 离线安装包 (Linux_x86)[CentOS、Ubuntu都支持] docker-27.5.1

2025-02-07

deepspeed-0.14.3-py3-none-any.whl

深度学习优化库,linux与windows编译安装有概率失败

2025-02-07

torch-2.5.1+cu121-cp312-cp312-linux-x86-64.whl

vLLM最新版(0.7.1)对应的cuda-pytorch版本。 python=3.12 cuda>=12.1

2025-02-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除