几道之旅-CSDN博客

原创 sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama解释这行代码的含义

创建系统账户（非登录用户）。这类用户通常用于运行后台服务，UID 范围在 1-999 之间（不同发行版可能略有差异）。，确保该账户无法通过终端或 SSH 进行交互式操作，提升安全性。自动创建与用户名同名的用户组，并将用户加入该组。此目录通常用于存放 OLLAMA 的配置文件、模型数据等资源。禁止用户登录 Shell。最终创建的用户名，该用户将专用于运行 OLLAMA 服务。以管理员权限执行命令，确保有足够权限创建系统用户。Linux 用户创建命令，用于在系统中新增用户。强制创建用户主目录（即使默认配置中。

2025-05-05 22:11:02 209

原创 linux种文件名usr的含义是什么？

1. 词源争议早期含义usr最初是User的缩写，用于存放用户主目录（类似于现代的/home例如，用户john的目录路径曾为/usr/john。现代定义：随着系统发展，/usr被重新诠释为（Unix系统资源）或（用户共享只读资源），其核心功能转向存储系统级软件和共享资源。2. 历史演变在Unix早期版本中，/usr是用户主目录的默认位置。由于存储设备容量限制，新增硬盘挂载到/usr下存放非核心程序。随着用户规模扩大，/home目录独立出来专门存放用户数据，而/usr逐渐成为系统软件资源的集中地。

2025-05-05 22:06:05 315

原创 linux下，查看占用某端口的进程id，究竟有多少种方法？lsof -i？netstat -tunlp?

在Linux系统中，排查端口占用问题是运维和开发的常见需求。本文将全面梳理，涵盖经典命令、新工具、底层文件系统操作及进阶技巧，帮助读者选择最适合的场景化解决方案。

2025-05-04 23:35:56 150

原创 ollama的一个诡异事实。sudo service ollama start v.s. nohup ollama serve &

我们在重复测试时发现更诡异的现象：同一台机器上不同运行方式加载的模型版本可能不同。通过三个实验对比，我们发现Ollama服务的运行方式直接影响其行为模式。两种方式运行的ollama，效果竟有如此大的不同。这也没啥嘛，服务关了，报错是应该的。

2025-05-04 23:26:09 11

原创修改ollama.service都可以实现什么？

设置模型加载最长等待时间（默认 5 分钟），防止僵死进程。，以专用低权限账户运行服务，降低安全风险（需提前创建用户。允许所有来源的 HTTP 请求，解决前端跨域问题。设置临时文件存储路径，避免占用系统默认分区空间。启用详细调试日志，便于排查启动或运行问题。指定自定义模型存储路径（默认路径为。确保服务崩溃后自动重启，提升稳定性。针对多用户场景优化提示缓存。

2025-05-03 23:43:48 115

原创 linux下，ollama会把模型文件保存在哪里？

这还不简单，我把系统服务关掉，如果这个进程没有了，然后重启服务，它又在了，不就说明问题了吗？系统自己启动的ollama，实际上就是这个。不是很懂，大概率模型文件就在这两个文件夹里。我们用两种方式，来运行ollama。打完指令后，截图的进程没有了。0.6b果然挺2的。

2025-05-03 23:40:35 159

原创 cat file.tar.gz | tar -xzf - -C /target/dir两个减号之间为什么有个空格？是写错了吗？（管道命令后续）

这种写法是tar命令的标准语法，用于处理管道输入和指定解压目录的场景。参考来源中的多个安装脚本（如 Ollama 的install.sh）均采用此格式，验证了其正确性。

2025-05-02 23:24:26 945

原创 linux指令中的竖线（“|”）是干啥的？【含实例展示】

管道符是Linux命令行中最高效的工具之一，通过简单的组合即可实现复杂的数据处理。掌握其用法，能大幅提升运维和开发效率。遇到复杂任务时，不妨先拆解步骤，再通过管道串联命令，往往能事半功倍。

2025-05-02 23:10:26 972

原创 linux下安装ollama网不好怎么办？

也不知道咋回事儿，最近这个github，就是时好时坏的。也不知道为啥。

2025-05-01 23:20:03 373

原创【Dify系列教程重置精品版】第五章：Dify配置Ollama

所以我在docker container里，访问localhost:11434时，实际无法访问到宿主机的11434，也就没办法调用宿主机上的ollama。安装时我们会发现，ollama是默认安装在C盘的，我们没得选，可如果我C盘已经红了，想安装到D盘如何操作呢？可以使用，但是我这边反应速度是很慢的，没有“月之暗面”反应快。参考上一讲，在上次配置的“小娇娇”对话框，点击右上角，选择我们新配置的deepseek;等待下载结束，就可以在本地使用了，上面图片可以看到，是可以进行正常的交流的。

2025-05-01 22:33:20 660

原创 Qwen3本地化部署，准备工作：SGLang

该框架近期新增对混合专家（MoE）模型的原生支持，并在 2025 年 MLPerf 基准测试中创下 72K tokens/秒的吞吐量记录。SGLang 是一个面向大语言模型和视觉语言模型的高效服务框架。Qwen3是通义千问系列大语言模型的最新版本，提供包括密集型和混合专家（MoE）模型的完整产品矩阵。该版本在保持技术专业性的同时，通过双模式架构设计平衡了专业任务处理与日常交互需求，标志着大模型技术向实用化方向的重要演进。但显存大的各位大佬，还是可以试试的。这个算力要求太高了，咱就不想了。

2025-04-30 23:42:01 277

原创【Dify系列教程重置精品版】第四章：实现Dify的 hello world

进入之后，我们选择模型供应商，这里我选择的是"月之暗面"也就是"KIMI",因为我已经安装了，下面就以“深度求索”为例。这里我已经配置了一个叫小娇娇的AI，但是仅仅名字是小娇娇，与我们的目标还差很远，不过总归是初见端倪。在左侧框中写下我们的要求，全部是中文就可以，我忘记截图了，就用代码中的凑合一下：点击“生成”->“应用”点击右上角我们的账户头像，点击“设置”。我再安装后，界面没有反应，重新刷新页面就好了。复制下来，填写到我们Dify的页面中即可。太可爱了，公司有这样的秘书我天天去。

2025-04-30 22:21:52 342

原创 23G显存可以跑多大尺寸的Qwen3？

随着阿里Qwen3系列大模型的发布，开发者们对如何在有限显存下部署不同尺寸的模型尤为关注。本文基于Qwen3的技术特性和实际测试数据，探讨在23G显存环境下可运行的模型选择及优化策略。不过由于咱财力有限，只有一张A100，还不是空的，目前只有23G的显存。那么这23G显存能跑什么模型呢？

2025-04-29 23:44:15 268

原创【Dify系列教程重置精品版】第三章：Dify平台的本地化部署

既然我们的目的是让老板使用小娇娇点外卖，网页版肯定就不可选了。既然有GitHub,那他一般是开源的，并且可以本地化部署。果不其然又报错了，他说：“连接不到桌面的Docker引擎。儿豁，这里他说，不知我在讲什么，不认识 git。上一章我们聊了部署Dify的前提，这一章终于可以开始本地化部署Dify了。第一步：我们把dify下载到自己的电脑（或者服务器）上。第二步：按照dify的github给出的指令，对dify进行安装。现在假设我的端口是1234，输入下面这两条指令。简单，我们直接下载一个也不麻烦。

2025-04-29 10:35:20 419

原创有哪些和PPT自动生成有关的MCP项目？

MCP通过协议标准化和工具链整合，正在推动PPT生成从“人工操作”向“智能编排”转变。当前，SlideSpeak等项目的成功验证了该路径的可行性，而更广泛的生态建设（如开源MCP Server库、企业API适配）将是下一阶段的关键。对于开发者而言，掌握MCP协议与主流PPT工具的对接技术，将成为提升AI应用价值的重要能力。

2025-04-28 23:47:13 369

原创 GRPO有什么缺点，如何改进？

GRPO通过创新的组内相对奖励机制，在特定任务中实现了资源效率与性能的平衡。然而，其存在的优化偏差、稳定性缺陷和理论缺口仍需学术界与工业界共同攻克。随着Dr. GRPO、MGRPO等改进方案的提出，以及理论分析的逐步深入，GRPO有望成为复杂推理任务强化学习的标准范式。

2025-04-28 23:41:18 93

原创大模型、知识图谱和强化学习三者的结合，可以形成哪些研究方向？

大模型（Large Language Models, LLMs）、知识图谱（Knowledge Graph, KG）与强化学习（Reinforcement Learning, RL）作为人工智能领域的三大核心技术，其融合正推动着认知智能迈向新高度。本文结合2023-2025年的最新研究成果，系统梳理三者结合的七大科研方向及其技术路径。

2025-04-27 23:39:52 96

原创【Dify系列教程重置精品版】第二章：在Windows上部署Dify

让我们的电脑允许使用Linux系统。有点兴奋是怎么回事？简单来说就是让你的电脑拥有另一个叫做Linux的系统。3.选择“适用于Linux的Windows子系统”与 “虚拟机平台”与“Hyper-V"第1章：安装 wsl （Windows Subsystem for Linux）上一章我们聊了什么是Dify，这一章我们讲一下怎么才能用Dify。好了，我们的环境部署好了，下一章我们正式进入Dify。下载完成后，我们直接一直无脑下一步，安装即可。完成上述步骤，我们就可以开始安装wsl了。我们的虚拟化也是开启的。

2025-04-27 22:06:30 215

原创 Weaviate使用入门：从零搭建向量数据库的完整指南

Weaviate是一款开源向量搜索引擎，专为存储和检索高维向量数据设计，支持文本、图像等多种媒体类型。低延迟：毫秒级响应时间，适用于实时场景。灵活扩展：支持数十亿级数据对象，模块化架构可集成自定义模型（如PyTorch、TensorFlow）。多模态支持：适配文本、图像、音视频等多种数据类型。云原生设计：提供GraphQL和REST API，无缝对接现有技术栈（如LangChain）。创建数据类（Class）schema = {],

2025-04-26 23:26:39 247

原创详解 `from datasets import load_dataset`：数据格式、公开数据集与自定义数据集实战指南

本地文件加载# 加载多 JSONL 文件动态内存构建复杂预处理 Pipeline结合map分布式优化技巧# 保存为 Arrow 格式加速后续加载。

2025-04-26 23:19:45 190

原创【闲聊记录向】我的贪吃蛇智能体现在怎么样了？

我翻看了强化学习这个专题下的日志，发现第一篇文章是4月3号发的。经过了20多天的奋战，我现在终于算是把强化学习相关的一些内容搞明白了。这个系列看的人不是很多，但自己还是蛮开心的，就当是取悦自己吧。

2025-04-25 23:45:15 452

原创【Dify系列教程重置精品版】第一章：相关概念介绍

方式实现大语言模型（LLM）与业务场景的深度结合。Dify作为新一代AI应用开发平台，通过。（完整代码示例及工作流配置详见后续课程）

2025-04-25 22:57:54 118

原创让贪吃蛇小游戏适配大语言模型（含代码）

标准化接口：符合reset()step()范式可观测性：提供丰富的状态信息可重复性：通过状态序列化支持实验复现扩展性：模块化设计便于功能扩展后续可结合DQN、PPO等算法实现自动游戏控制，也可作为强化学习教学案例使用。

2025-04-24 23:37:17 133

原创历时一个月，终于对强化学习有了一知半解的了解，完成了一段心心年的代码，基于GRPO和大模型实现AI玩贪吃蛇

目前刚开始训练，明天看看训练的效果吧。

2025-04-24 23:32:21 287

原创 rl中，GRPO损失函数详解。

在TRL（Transformer Reinforcement Learning）库中，GRPO（Group Relative Policy Optimization）是一种基于策略优化的强化学习算法，其核心目标是通过组内相对奖励和KL散度约束实现稳定高效的模型训练。以下结合代码实现，详细解析GRPO损失函数的设计逻辑。GRPO的提出是为了解决传统PPO（Proximal Policy Optimization）算法中依赖价值模型（Value Model）带来的计算复杂性问题。

2025-04-23 23:25:02 78

原创这个经常看到，但好像不会也没啥影响的Jinja是个什么东西？盘点各类用法

你可能在Flask的HTML模板里见过它，或在Ansible的配置文件中偶遇过它的语法，甚至是在静态网站生成器中无意间调用过它的功能。，核心目标是将业务逻辑与展示层分离，通过模板动态生成文本内容（如HTML、XML、配置文件等）。它的设计理念是“允许模板设计师拥有足够的表达能力，同时避免过度侵入业务逻辑”。，Jinja以简洁的语法和强大的扩展能力，悄然支撑着从Web开发到运维自动化的多种场景。（base.html）：定义通用结构（如页头、页脚）。👆在大模型中，jinja被用来描述默认的对话模板。

2025-04-23 06:48:39 153

原创盘点那些用于多轮对话的Special Token

Special Token是语言模型中预定义的符号，用于标注对话结构而非直接参与语义表达。它们通过注意力机制与上下文交互，帮助模型识别对话轮次边界、角色切换和任务指令。角色标记（如<|user|>）划分说话者身份，确保回复风格一致性状态标记（如[REC][GEN]）引导模型执行推荐或闲聊等特定动作结构化标记（如）封装元数据，防止注入攻击。

2025-04-22 23:05:47 132

原创盘点HuggingFace Tokenizer的常见操作

掌握Hugging Face Tokenizer的细节能显著提升NLP任务效率。建议结合官方文档和实际项目需求，灵活选择分词策略与配置参数。随着多模态和长文本模型的发展，Tokenizer的功能将持续扩展，开发者需保持对新特性的关注。

2025-04-22 23:00:10 84

原创盘点强化学习中的各种O（DPO、PPO、GRPO等）

在强化学习领域，以字母"O"（Optimization）结尾的算法因其独特的优化机制和广泛的应用场景备受关注。这些算法覆盖了策略优化、偏好对齐、物理建模等多个方向，并在大模型对齐、机器人控制、复杂系统仿真等领域展现出强大潜力。本文将对PPO、GRPO、GPO等核心算法进行系统解析，并探讨其技术特点与前沿进展。

2025-04-21 18:38:17 133

原创 6G显存可以跑基于GRPO的LLM训练吗？（调包侠？无所谓啊。建议学习强化学习第一步，就是成为一个调包侠。）

由于6G显存，确实还是太小了，咱们能做的应该就仅仅是把模型跑起来而已，如果想得到实际的结果，还是得想办法找更优秀的显卡啊~Windows环境下，请使用wsl运行。

2025-04-21 18:20:11 248

原创这可能是你一辈子都遇不到的一个bug。from unsloth import FastLanguageModel ImportError: cannot import name ‘FastLangua

今天给大家分享一个特别搞笑的报错。这个报错呢，你基本上一辈子都不会遇到一回。但你遇到了，也搜到了此博文，必然不免被原因逗笑。但同时，你要是没有搜到此博文，那就~

2025-04-20 23:14:00 152

原创详解trl中的GRPOTrainer和GRPOConfig

GRPO是一种基于组内相对优势比较分组采样：对同一提示（prompt）生成多条回答（completions）形成组（group）。奖励归一化：计算组内回答的归一化奖励，避免依赖显式价值函数（Critic Model）。KL正则化：引入KL散度惩罚项，防止策略模型（Policy Model）过度偏离参考模型（Reference Model）。

2025-04-20 10:27:37 70

原创可以用大语言模型玩贪吃蛇吗？咱也不知道，只能走一步，看一步了~

用大语言模型控制贪吃蛇虽在实时性、稳定性上不及传统RL，但其自然语言推理能力为游戏AI提供了新的可能性——或许未来我们能看到LLM在《星际争霸》《DOTA》等复杂游戏中的表现RIGHT = 0LEFT = 1UP = 2DOWN = 3# 初始化显示# 初始化游戏状态self.head,# 确保食物不生成在墙壁位置# 1. 收集用户输入quit()# 2. 移动# 3. 检查是否游戏结束reward = 0# 计算蛇头与食物的曼哈顿距离。

2025-04-19 23:19:09 103

原创 Policy Gradient思想、REINFORCE算法，以及贪吃蛇小游戏（四）（完结）

为了和这些算法框架保持一致，我们对梯度上升的目标加上了一个符号，变成损失函数的形式。这是一个以游戏的观测（observation，约等于state）作为输入，当前步骤下，采取各action的概率作为输出。损失函数越小，其相反数，也就是我们要梯度上升的目标，就越大，我们的策略获得的J就越大，我们的策略就会倾向于更优。熟悉过pytorch的都知道，我们只要有一个模型结构，再有一个损失函数，就可以构建出一个深度学习的模型。因此，如果咱的算法训出的智能体比较蠢的话，也是比较正常的。至此，模型大概的框架就有了。

2025-04-19 07:46:10 239

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

minemap设置背景.pptx

electron 的hello world

把文件拖到上面就会被删除掉

tensor_toolbox_2.6.zip

spring web service 官网示例 基于spring-ws

数字图像处理作业 vc++ mfc

安卓socket实现聊天与文件上传

空空如也

spring web service 官网示例基于spring-ws