Zain Lau-CSDN博客

原创 linux新M2固态挂载

深度学习一些huggingface的权重和数据集

2024-01-03 09:40:38 914

基于5G、VR技术以及未来的智能硬件发展，我提出足不出户便可游玩全球的的无人旅行概念，解决旅行长途奔波痛点，改变人们旅行方式。在河北武安开发无人旅行试点，于京娘湖、七步沟等景区设置观景机器人，机器人由仿人形五球轮滑动机器人以及无人机（非平地观景）两部分构成，硬件设施搭建完成后，由用户购买旅行装，主要是沉浸式头盔（后续可以加入新技术，同步真人与观景机器人动作），通过观景机器人实现千里之外就可以和景区游玩的人互动。无人旅行概念成熟之后，将中国景区概念带向全世界，颠覆外国人对中国认知，观景机器人内置翻译芯片，

2020-08-03 03:46:30 843

原创 Python实现淘宝直播自动点赞与抽奖

最近入了直播抽奖的坑，而且中了不少奖，薅羊毛事后一时爽，天天刷火葬场。于是想到用Python自动监控，直播福利是以抽奖为形式的，粉丝们在互动区疯狂发送关键字，主播随机截图，并给在截图中的粉丝送出福利。这个过程需要粉丝疯狂的点赞，以及实时盯着屏幕以防什么时候开始刷屏抽奖。如果全程亲自操作，依靠自己手动点击的话，不能解放双手，是非常拉底做事效率的。如果依靠自己盯着屏幕看，也是非常原始的做法。所以，如果能有一个自动点赞+自动窥屏的外挂将会让我们在薅羊毛的路上满载而归。鉴于之前已经有同学实现了自动挖掘抖音美女

2020-07-06 16:04:00 6815 6

原创编译器的前端技术

编译器的“前端”技术分为词法分析、语法分析和语义分析三个部分。而它主要涉及自动机和形式语言方面的基础的计算理论。词法分析是把程序分割成一个个 Token 的过程，可以通过构造有限自动机来实现。语法分析是把程序的结构识别出来，并形成一棵便于由计算机处理的抽象语法树。可以用递归下降的算法来实现。语义分析是消除语义模糊，生成一些属性信息，让计算机能够依据这些信息生成目标代码。附：网盘里10280G的资源拿出来晒晒太阳，涉及计算机前端、后端、算法、AI、平面设计、雅思、数据分析、挖掘、考研等等之前和

2020-05-19 23:46:46 1090 2

原创胖猫之死犹在眼前，捞女之PUA让我身心戕害

经济上的重压：无休止的索取在确定恋爱关系的几个月里，我为她花费了大量的金钱。但让我感到无力的是，她似乎从未满足。她指责我“太抠儿”“不够爱她”，而我则质问她的欺骗与利用。反思与总结：我的成长回顾这段经历，我感到无比痛心，但也从中吸取了教训。我明白，真正的爱情应该是平等的，而不是一方无休止地索取，另一方无底线地付出。本人与夏XX恋爱期间，她多次以结婚为由对我进行精神PUA，不断让我为她花钱，并经常爆出毁三观的言论： “

2025-05-29 03:50:25 241

原创接口——类比摄像

接口的代码格式因编程语言而异，下面提供两个经典接口的示例，分别是 REST API 和 gRPC，并对比它们的区别。

2025-05-18 23:39:01 466

原创昇腾MindIE的伪量化

伪量化 = “我还是 float，但我假装是 int8 来训练”。是连接浮点训练模型和实际量化部署之间的关键桥梁。如果你要部署 int8 模型，但又担心精度掉得多，伪量化训练就是你的好朋友。

2025-05-13 11:57:40 309

原创昇腾 paged_attention 算子

【代码】昇腾 paged_attention 算子。

2025-05-09 16:38:40 117

原创 vllm学习

shm-size=1g 是设置共享内存为 1GB，适用于大多数情况，但深度学习任务可能需要更大值（如 2g 或 4g）。如果遇到 CUDA OOM 或数据库崩溃，优先检查 shm-size 是否足够。启动容器时设置，运行后无法修改。

2025-05-06 14:22:22 849

原创三分钟搞懂什么是 MCP

这段时间大家都被 MCP 刷屏了吧，不少小伙伴都在问我：MCP 到底是啥玩意？今天，我们就从大模型的角度切入，聊聊 MCP 的核心原理和它的实际应用。

2025-04-18 20:31:30 1024

原创还不懂Chunked Prefill？进来看看

当启用Chunked Prefill并设置max_num_batched_tokens=2048时，这一配置旨在通过分块处理长序列输入，优化大语言模型（LLM）推理的吞吐量和延迟。

2025-04-18 20:15:21 527

原创 rar不可只可离线tar、unzip

哈哈。

2025-04-13 14:54:42 72

原创推理引擎datasets

你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：撤销：Ctrl/Command + Z重做：Ctrl/Command + Y加粗：Ctrl/Command + B斜体：Ctrl/Command + I标题：Ctrl/Command + S

2025-04-13 14:46:18 663

原创一句话，让「OpenManus」生成完整的微信小程序

OpenManus也是一款通用型智能体，由来自@MetaGPT 的团队在 3 小时内完成了开发！且直接开源。在昨天看到这则消息后，只是短暂的震惊了一下，然后内心毫无波澜，觉得3小时能开发个啥，Manus可是历时一年，才放出个Bate版。然后今天测试过后，却不由的内心微颤。今天就和大家分享一下，我的测试结果。从OpenManus的本地部署，到让它直接帮我生成一个完整的微信小程序。一、OpenManus本地部署1、配置环境，构建项目根据git上的提示，需要用到python3.12版本。

2025-04-08 18:52:55 377

原创昇腾MindIE 限制非首token时延（TPOT）的极限吞吐

以Decode平均时延限制50ms以内为目标，限制非首token时延的极限吞吐的调试方式如下所示。

2025-03-26 17:31:07 374

原创 vllm の Dockerfile学习

【代码】vllm の Dockerfile学习。

2025-03-25 17:27:49 150

原创还不会function-call？看完这篇就懂了

启动推理服务，并根据当前配置修改脚本最后的model_name和端口号（85、86行处）；函数调用为大模型提供了一种强大而灵活的方式来与您的代码或外部服务进行交互。服务启动后，通过python执行脚本，发起请求；使模型能够获取数据并执行操作。

2025-03-17 16:29:44 291

原创大模型的webui

【代码】大模型的webui。

2025-03-15 15:13:34 242

原创 GitLab的Dockerfile 追踪

通过以上步骤，你就可以在 GitLab 上准备每个平台的 Docker 镜像文件，并实现完整的 Dockerfile 追踪。

2025-03-11 18:22:17 346

原创还不懂 Function Calling？看完这篇就行

这一概念也可能被称为“工具使用” (“tool use”)。虽然有人认为“工具”是“函数”的泛化形式，但在当前，它们的区别仅在技术层面上，表现为编程接口的不同输入输出类型。大型语言模型（LLMs）确实强大。然而，有时候单靠大型语言模型的能力还是不够的。一方面，大型语言模型存在建模局限性。首先，对于训练数据中没有的信息，包括训练结束后发生的事情，它们并不了解。此外，它们通过概率方式学习，这意味着对于有固定规则集的任务，如数学计算，可能不够精确。

2025-03-11 17:35:08 1178

原创还不会构建MindIE镜像？一篇文章搞定

用于构建多平台/架构的 MindiE 镜像的脚本。用户可以根据需要准备好所需的软件包，修改相关配置并构建镜像。

2025-03-06 18:00:04 1364

原创昇腾带宽不知道怎么测？看这一篇就够了

带宽测试主要用于测试总线带宽、内存带宽和时延。

2025-03-06 10:10:21 1017

原创还不会多模态大模型？看这一篇就够了

hh

2025-03-05 20:42:56 260

原创昇腾多模态大模型推理能力学习，看这一篇就够了

目前昇腾的多模态大模型推理能力主要集成在MindIE推理引擎的LLM和SD组件MindIE最新版本支持的多模态模型LLaVa、Qwen-VL、internVL、internLM-XComposer2、MiniCPM-V2、MiniCPM-LLaMa3-V2.5支持多模态理解VLM模型对接服务化调度、单图url/base64。

2025-03-03 20:38:13 331

原创昇腾系列芯片命名搞不清？看这一篇就够了！！！

Ascend310（基本淘汰）

2025-03-03 20:35:32 4115 1

原创 MindIE 长文本推理

长序列定义为序列长度超过32K甚至可到达1M级别的文本。长序列特性的主要要求是在输入文本超长的场景下，模型回答的效果及性能也可以同时得到保障。在长序列场景下，由Attention和部分造成的显存消耗会快速的成倍增长。因此对这部分显存的优化便是长序列特性的关键技术点。其中涉及到诸如KV Cache量化，kv多头压缩，训短推长等关键算法技术。：在训练时通过较长的文本对模型的权重进行训练，从而使得模型在推理过程中对长序列输入依然可以保持良好的模型能力。

2025-03-03 20:25:02 416

原创 4*910B1のDeepSeek-R1部署

部署DeepSeek-R1模型用BF16权重进行推理至少需要4台Atlas 800I A2（864G）服务器，用W8A8量化权重进行推理则至少需要2台Atlas 800I A2 (864G)

2025-02-27 13:37:11 478

原创 MindIE 基于昇腾910B2 aarch64环境profile

MindIE镜像获取MindIE使用说明docker生成和启动编写 docker 启动脚本 start-docker.sh。

2025-02-27 13:33:10 747

原创 DeepSeek全系列全平台部署（可代部署）

部署DeepSeek-R1模型用BF16权重进行推理至少需要4台Atlas 800I A2（864G）服务器，用W8A8量化权重进行推理则至少需要2台Atlas 800I A2 (864G)由于模型权重较大，请确保您的磁盘有足够的空间放下所有权重，例如DeepSeek-R1在转换前权重约为640G左右，在转换后权重约为1.3T左右推理作业时，也请确保您的设备有足够的空间加载模型权重，并为推理计算预留空间生成模型w8a16量化权重，使用histogram量化方式，在CPU上进行运算。

2025-02-20 20:08:22 860 5

原创昇腾910B/300I DUO/310P等 NPU环境采集文件无hccn_tool相关命令的执行结果

执行NPU环境检查文件npu_info_before.txt或npu_info_after.txt，部分命令无回显信息。

2025-01-02 10:58:53 938

原创大模型杂记

使用高效算子和库：利用PyTorch中的高效函数（如torch.nn.functional）和第三方库（如cuDNN、Intel MKL）来加速计算。优化数据加载和预处理：使用torch.utils.data.DataLoader的多进程数据加载功能，并对数据进行适当的预处理（如归一化、数据增强）。使用内存池技术：如torch.utils.checkpoint模块中的checkpoint函数，通过重新计算中间结果来减少内存占用。模型剪枝：去除模型中不重要的连接或参数，以减小模型规模，减少内存占用和计算量。

2024-12-25 15:55:23 598

原创 Kubernetes 的本质

这样，你把 Credential 信息以 Secret 的方式存在 Etcd 里，Kubernetes 就会在你指定的 Pod（比如，Web 应用的 Pod）启动时，自动把 Secret 里的数据以 Volume 的方式挂载到容器里。上面这些基于 YAML 文件的容器管理方式，跟 Docker、Mesos 的使用习惯都是不一样的，而从 docker run 这样的命令行操作，向 kubectl apply YAML 文件这样的声明式 API 的转变，是每一个容器技术学习者，必须要跨过的第一道门槛。

2024-11-28 00:01:34 618

原创 ThreeNN算子の昇腾优化

Ascend C

2024-09-25 18:00:12 394

原创大模型推理性能优化

KV 缓存的总大小（以字节为单位）= （batch_size） * （sequence_length） * 2 * （num_layers） * （hidden_size） * sizeof（FP16）对最大长度是 4096 的 LLaMa2-7B fp16 模型，服务端每创建 1 个并发，都需要大约 2GB 显存保存 kv_cache，即便是 A100 80G，能并发服务的用户也非常有限。次的预测数据送入模型，拿到第 i+1 次的推理token。的增加，KV-Cache 的大小。----降低带宽使用率。

2024-09-20 20:56:46 838

原创昇腾Ascend C算子性能优化

之。

2024-09-20 17:11:44 1287

原创昇腾Ascend C算子开发

构体获取Tiling信息，根据Tiling信息控制数据搬入搬出Local Memory的流程；由于Tiling实现中完成的均为标量计算，AI Core并不擅长，所以我们。Kernel实现即算子核函数实现，在Kernel函数内部通过解析Host侧传入的Tiling结。切分数据的算法称为Tiling算法或者Tiling策略。环多少次）的计算程序，称之为Tiling实现，也叫Tiling函数（Tiling。过调用计算、数据搬运、内存管理、任务同步API，实现算子逻辑。● Host侧Tiling实现。

2024-06-17 08:47:19 678 1

原创心即理、知行合一、致良知 with python

无善无恶是心之体，有善有恶是意之动，知善知恶是良知，为善去恶是格物。

2024-03-20 14:59:31 343

原创昇腾千卡算力集群交付痛点及工具链思路

且算力场景因设备多，HW及客户的维护操作人员多，不同人员配置部署和变更调整后，其他人很难获知情况，经常需要人工校验所有设备的设备状态，软硬件版本一致性，性能，配置参数等，这些需要极大的工作量，如果只依赖于人工的命令执行和观测，是非常低效和无法保证一致性的。X1项目中现场开发了校验脚本，可以快速校验出线缆连接、信号质量、配置部署、产品状态等各方面的问题，才能快速完成线缆连接准确性和质量的整改，随时发现和纠正集群里的设备异常和配置错误，让大型集群长期处于最佳状态，保障后续模型训练能够长稳运行。

2024-03-20 09:41:16 1140

原创蓉转京阶段小感

下午从京东方参观回来，想起许久未见的昊兄，想着给他发个消息。刚走进办公室，就看着微信一个黑的头像框，点开仔细一看，竟是昊兄，说下周来北京工作，这种鬼使神差的感觉仿佛把我带回初中时，那时所做所想真确如有神助。我本身并不主动，但总有一些奇妙的外界力量助推我心之所想。如与帅去北大，想昊时下七楼。世界真的很奇妙，很多冥冥之中的安排，犹如阳明心学中的心之感、神为发。古哲依旧是治愈我心的良药，无我、无他、无花无叶无世界。心态有起有落，趋于平和（阳明心学）阳明融入python更是一种大成。心实则万物可成，无悲欢之苦乐。

2024-03-18 14:53:41 284

原创基于昇腾910B搭建多节点K8s集群

自从 2013 年 Docker 诞生以来，容器一跃成为 IT 界最热门的话题。而 Kubernetes 趁着容器的东风，击败众多竞争对手，成为了“容器编排”领域的King。可以说，现在 Kubernetes 已经没有了实际意义上的竞争对手，它的地位就如同 Linux 一样，成为了事实上的云原生操作系统，是构建现代应用的基石。

2024-01-11 20:52:22 3235 2

我是小智你的个人与应用

无标题pip资源包datasets

System3.0.exe

空空如也