小军军军军军军-CSDN博客

原创【模型篇】370-M8运行 Qwen3

Qwen 系列大型语言模型的最新成员。我们的旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比，表现出极具竞争力的结果。此外，小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%，表现更胜一筹，甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

2025-04-29 15:16:17 287

原创【应用篇】MLU实现comfyui加速推理 or comfyui-api调用

ComfyUI 是一个为 Stable Diffusion 专门设计的基于节点的图形用户界面（GUI）。它使用户能够通过链接不同的块（称为节点）来构建复杂的图像生成工作流程。这些节点可以包括各种任务，如加载检查点模型、输入提示、指定采样器等。ComfyUI 提供了极高的自由度和灵活性，支持高度的定制化和工作流复用，同时对系统配置的要求较低，并且能够加快原始图像的生成速度。然而，由于它拥有众多的插件节点，以及较为复杂的操作流程，学习起来相对困难。

2025-04-14 10:17:53 749

原创【模型篇】370-M8运行Qwen2.5-Omni-7B

OpenAI 发布 GPT-4V 与 Gemini 1.5-Pro，Google DeepMind 推出 Flamingo 和 Gemini 系列，多模态技术逐渐成为 AI 实用化的关键路径。但多模态大模型往往意味着参数暴增、推理开销剧增、无法实时响应等现实问题。如何构建“轻量化、全模态、强泛化、可部署”的 AI 系统。在这样的背景下，阿里通义团队开源发布的 Qwen2.5-Omni-7B，无疑是一次重量级突破。

2025-03-31 12:00:39 515

原创【应用篇】MLU上deepseek/QwQ-32B+dify实现workflow应用

本章主要讲解如何用paas平台，实现智能体应用本章中大模型我们使用deepseek-R1-14B,当然QwQ也是可以使用的，根据您需要选择合适得模型智能体应用平台，直接调用dify，当然可以直接通过Github裸金属私有化部署也是ok得今日目标：用dify搭建一个workflow【上传文档->自动总结文档】

2025-03-10 12:04:02 1147

原创寒武纪MLU结合Deepseek-R1-Distill实现本地知识库部署

本章节将使用xinference启动 LLM+检索模型服务，然后使用Langchain-chatchat接收模型服务api，并录入知识库，实现本地知识库部署。

2025-02-08 00:22:01 1258

原创寒武纪MLU370部署deepseek r1

DeepSeek-R1拥有卓越的性能，在数学、代码和推理任务上可与OpenAI o1媲美。其采用的大规模强化学习技术，仅需少量标注数据即可显著提升模型性能，为大模型训练提供了新思路。此外，DeepSeek-R1构建了智能训练场，通过动态生成题目和实时验证解题过程等方式，提升模型推理能力。该模型完全开源，采用MIT许可协议，并开源了多个小型模型，进一步降低了AI应用门槛，赋能开源社区发展。

2025-01-31 22:01:26 2912 8

原创 MLU上使用MagicMind GFPGANv1.4 onnx加速！

MagicMind是面向寒武纪MLU的推理加速引擎。MagicMind能将人工智能框架（TensorFlow、PyTorch、Caffe与ONNX等）训练好的算法模型转换成MagicMind统一计算图表示，并提供端到端的模型优化、代码生成以及推理业务部署能力。MagicMind 致力于为用户提供高性能、灵活、易用的编程接口以及配套工具，让用户能够专注于推理业务开发和部署本身，而无需过多关注底层硬件细节。

2025-01-06 10:50:45 1162

原创 MLU运行Stable Diffusion WebUI Forge【flux】

FLUX模型是由Black Forest Labs推出的一款文本生成图像的AI模型，具有120亿参数，显著提升了图像生成的质量和多样性‌。FLUX模型包含三个版本：FLUX.1 pro、FLUX.1 dev和FLUX.1 schnell，分别针对不同的使用场景和需求。‌‌FLUX.1 pro‌：这是FLUX的最强版本，专为商业用途设计，提供最先进的图像生成性能，包括顶级的提示词遵循、视觉质量和输出多样性。它是一个闭源模型，需要通过API获取访问权限。

2024-12-23 20:00:39 947

原创【训练篇】MLU实现Qwen2-7B分布式训练多机多卡

本篇文章，讲述如果在智算平台上完成分布式训练主流程顺序如下：1.先制作一台可训练的镜像2.保存单台镜像3.制作多机脚本4.完成分布式训练需要注意：1.要挂载存储卷2.要保持多机免密3.要保证训练时多机环境一致。

2024-12-10 14:18:02 1151

原创【模型篇】MLU运行sam2

SAM 2可以分割以前从未遇到过的物体，表现出强大的零样本泛化能力。它在17个零样本视频数据集的交互式视频分割方面明显优于以前的方法，并且需要的人工交互大约减少三倍。SAM 2在其23个数据集的零样本基准测试套件上优于SAM，同时速度快 6倍。与之前最先进的模型相比，SAM 2在现有的视频对象分割基准测试（DAVIS、MOSE、LVOS、YouTube-VOS）方面表现出色。模型实现了实时推理速度，每秒处理大约44帧。这使得SAM 2适用于需要即时反馈的应用，例如视频编辑和增强现实。

2024-11-25 16:52:26 546

原创 MLU运行SD3部署手册

Stable Diffusion 3各版本模型在以下多个方面表现出色：可定制性：轻松微调模型以满足特定创作需求，或根据定制的工作流程构建应用程序。高效性能：经过优化，均可在标准消费级硬件上运行。多样化输出：无需大量提示，即可创建代表全世界的图像，而不仅仅是一种肤色和特征的人。风格多样：能够生成各种风格和美感的图片，如 3D、摄影、绘画、线条艺术以及几乎任何可以想象到的视觉风格。

2024-11-08 17:54:56 430 2

原创【工具篇】MLU运行XInference部署手册

Xorbits Inference（Xinference）是一个功能强大、用途广泛的库，旨在为语言、语音识别和多模态模型提供服务。借助Xorbits Inference，您只需使用一个命令即可轻松部署和维护您的或最先进的内置模型。无论您是研究人员、开发人员还是数据科学家，Xorbits Inference都能让您充分发挥尖端人工智能模型的潜力。主要特点：简化模型服务：简化服务大型语言、语音识别和多模态模型的过程。您可以使用单个命令设置和部署用于实验和生产的模型。

2024-10-17 23:22:52 1581 4

原创 MLU370-M8运行llama3.2-11B手册

Llama 3.2-Vision多模态大型语言模型（LLM）集合是11B和90B大小（文本+图像输入/文本输出）的预训练和指令调优图像推理生成模型的集合。Llama 3.2-Vision指令调优模型针对视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化。在常见的行业基准上，这些模型的表现优于许多可用的开源和封闭式多模式模型。

2024-10-10 22:39:31 1151 3

原创 MLU370-M8运行Qwen2-vl手册

Qwen2-VL-Chat 是由阿里巴巴开发的多模态大语言模型，它是 Qwen2-VL 系列的一部分，专门设计用于处理图像和文本的联合输入与输出。这个模型能够在视觉与语言任务中表现出色，比如图像描述、视觉问答、图像中的文字识别等。它的多模态能力使其能够理解并生成与图片和文本相关的复杂回答，甚至支持多轮对话和多图像比较(Qwen2-VL-Chat 的特点包括：多图像输入：支持同时处理多张图片，并能够根据用户的提示进行比对和回答。

2024-09-09 23:40:53 759 2

原创 yolov8/yolov10 MLU370 实现推理/单多卡训练！

本章主要操作以yolov8为主，但是yolov10用该操作也能直接适用，开干！

2024-08-15 23:37:12 2215 2

原创在MLU370运行CogVideoX-2b轻轻松松！

370跑cogvideo

2024-08-09 15:57:47 443

原创 MLU370运行glm4-9b-chat，30秒跑通！

在国产芯片运行GLM4-9B

2024-08-05 10:38:16 520 2

原创【训练篇】MLU370-M8 完成 qwen1.5-7b-chat-lora训练及推理

本期我们采用魔塔的swift来完成qwen1.5-7b-chat的训练,除一些环境安装需要转换，其他的与N卡训练操作一致。

2024-06-30 22:22:50 1028

原创 MLU370-M8 chattts-ui快速出击

模型默认采用魔塔路径下载，这里不做模型下载教学。驱动选择：5.10.22及以上。镜像选择：pytorch2.1。MLU体验感拉满了简直。

2024-06-06 14:28:32 455 1

原创 MLU370-M8 快速跑通 llama3-8B

MLU370运行llama3-8b

2024-04-19 10:32:08 1125 9

原创 MLU370-M8 Cogvlm部署手册

修改cogvlm-chat/visual.py 【因为xformers适配状态中，我们将attention计算方式使用pytorch实现】修改basic_demo/cli_demo_hf.py代码【将default改成自己的绝对路径】参考https://www.zhihu.com/question/602057035。将下载后的模型拷贝到存储卷中，方便后续改绝对路径使用。启动会有点慢但是不会影响到后面的使用。pip install 即可。下载社区github代码。下期见byebye!

2024-03-04 18:53:26 1070 1

原创【工具篇】MLU370-M8部署langchain-chatchat大模型+RAG!

在往后得部署手册中，即会讲到如何部署，也会讲到如何跑通,用370的可以跟着搞，不用370的也可以看下如何部署，在GPU也是通用的。

2024-03-04 11:25:23 1405 1

原创【数字人篇】MLU370-M8运行口播模型wav2lip 推理篇or训练篇【单卡及多卡】

目前MLU370-M8适配的算法方向百花齐放，大模型适配30+，多模态大模型适配10+，数字人算法【声音克隆，文本生语音，超分】适配10+，以及常规图像识别算法几乎都适配，在保证精度和适配度的同时，也保证了速度对标GPU.

2024-02-27 14:43:26 2381 3

原创 MLU370-M8部署stable-diffusion部署手册

MLU370 跑sd

2024-02-02 11:08:07 822 2

原创 ChatGLM3-6B MLU370-M8运行手册来咯！！

MLU370-M8运行GLM3

2024-01-25 11:32:37 907

原创 MLU370-M8跑大大大规模模型！！！Qwen-72b-chat

MLU370-M8跑通大大规模模型

2023-12-05 14:45:21 2269 9

原创寒武纪芯片MLU370-M8完成GLM2-6B多轮对话Ptuning-v2

前几篇讲到了有关大模型在寒武纪卡上推理，是不是觉得越来越简单了，接下来上干活知识，基于寒武纪卡完成大模型微调，以及后面还会讲到基于寒武纪卡完成数字人训练+推理，敬请期待。废话不多说，我们现在开始目前Mlu能跑几乎很多算法，下一期来一期数字人推理+数字人训练吧。

2023-10-25 13:50:20 1005 1

原创 MLU370-M8轻轻松松跑通Qwen-7B-chat

通义千问-7B（Qwen-7B）是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在Qwen-7B的基础上，我们使用对齐机制打造了基于大语言模型的AI助手Qwen-7B-Chat。Qwen-7B系列模型的特点包括：1 大规模高质量预训练数据：我们使用了超过2.2万亿token的自建大规模预训练数据集进行语言模型的预训练。

2023-10-10 11:52:43 1066

原创什么！国产芯片MLU370-M8跑Chatglm2-6B!!

更强大的性能：基于 ChatGLM 初代模型的开发经验，我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。更长的上下文。

2023-08-10 17:42:25 1335 4

原创 ChatGLM-6B如何推理在MLU370

Chatglm 国产MLU370部署推理

2023-06-26 14:04:04 832 1

原创 MLU370用户指南 or MLU370-YOLOV5快速训练推理！！速度起飞

在本章我们将从获取算力卷创建自己的云平台账号开始，一步一步的带着大家从0到1完成，从创建云平台环境选择镜像，选择SDK版本，到SSH登录云平台环境，更改github原版yolov5 v5.0代码实现mlu370训练和推理，同时在最后总结出部分QA为各位开发者提供快速支持。

2023-06-01 11:20:40 1866 9

原创 opencv-cuda编译以及使用包括问题处理

opencv-cuda编译 or 问题解决处理装前温馨提示一、常规安装流程1.ffmpeg安装1.常规依赖项安装2.下载ffmpeg3.安装nv-codec-headers4.编译5.配置环境变量6.ffmpeg说明2、opencv-cuda编译1.常规依赖项安装2.下载opencv所需相关文件及编译方式3.开始编译4.编译自查是否成功（看config）4.1查看ffmpeg是否编译成功4.2查看OPENGL是否安装成功4.3查看nvcuid是否安装成功5.开始安装6.设置环境变量7.测试gpu代码事例（官

2022-04-21 15:11:13 3988

原创海康威视py和c++调用全（超精髓，亲测）

海康威视调用，看了我的解决问题

2021-12-30 15:51:10 4562 6

原创 yolov5转onnx，c++调用完美复现

YOLOV5s 5.0 c++调用模型onnx（超精华）前展叙述概论新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入前展叙述概论本文章讲述了c++调用yolov5模型所遇到的问题，代码分享，新的改变我们对Markdo

2021-12-21 18:10:54 18752 14

原创 OpenPose：Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields论文解读

摘要实时多人二维姿态估计是使机器了解人的关键组成部分图像和视频。在这项工作中，我们提出了一种实时检测图像中多个人的二维姿态的方法，被提议的方法使用非参数表示，我们将其称为部分亲和域(paf)，以学习将身体部位与之关联图像中的个体。这种自下而上的系统无论人数多少都能实现高精度和实时性的形象，在之前的工作中，paf和身体部位位置估计是在训练阶段同时细化的。我们证明仅对PAF进行细化，而不是PAF和身体部位定位的细化，会导致两者都大幅增加运行时性能和准确性。我们还提出了第一个结合体和脚的关键点探测器，基于内部注

2021-08-12 21:41:51 2538 1

原创 MTCNN人脸检测论文+代码实现（python）（全）

MTCNN论文详解&代码测试1.MTCNN的简要概括2.Joint Face Detection and Alignment using3.摘要：4.介绍：5.训练步骤6.5相关步骤的代码实现（仅部分）生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入论文地址：https://kpzhang93.github.io/MT

2021-08-03 16:53:33 5895 9

原创实现windows和linux或者windows与windows实现socket通信互相传送

1，windows和linux实现通信1，确保linux系统的qt可以完整使用测试方法如下：傻瓜式操作一直下一步就好知道创建成功项目创建成功后什么都不用测试只需要点击运行即可出现白窗口即为qt测试通过，可以开始下一步如果出现报错关于g++就说明你的linux系统c++问题如果出现cannot find -lGL 就说明找不到你qt的静态库，这时就要查看下你的动态库是否路径正确解决方法1：sudo apt-get install libgl1-mesa-dev 安.

2021-06-02 19:05:29 1510 2

原创 ubtu如何实现qt通信以及opencv的操作

opencv添加到ubtu的qt#systemINCLUDEPATH += /usr/local/include \ /usr/include \ /usr/lib/x86_64-linux-gnuLIBS += -L/usr/local/libLIBS += -L/usr/lib#opencv3.3INCLUDEPATH += /usr/local/include \ /usr/local...

2021-06-02 16:10:56 364 1

空空如也

空空如也