自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(272)
  • 资源 (7)
  • 收藏
  • 关注

原创 sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama解释这行代码的含义

创建系统账户(非登录用户)。这类用户通常用于运行后台服务,UID 范围在 1-999 之间(不同发行版可能略有差异)。,确保该账户无法通过终端或 SSH 进行交互式操作,提升安全性。自动创建与用户名同名的用户组,并将用户加入该组。此目录通常用于存放 OLLAMA 的配置文件、模型数据等资源。禁止用户登录 Shell。最终创建的用户名,该用户将专用于运行 OLLAMA 服务。以管理员权限执行命令,确保有足够权限创建系统用户。Linux 用户创建命令,用于在系统中新增用户。强制创建用户主目录(即使默认配置中。

2025-05-05 22:11:02 209

原创 linux种文件名usr的含义是什么?

1. 词源争议早期含义usr最初是User的缩写,用于存放用户主目录(类似于现代的/home例如,用户john的目录路径曾为/usr/john。现代定义:随着系统发展,/usr被重新诠释为(Unix系统资源)或(用户共享只读资源),其核心功能转向存储系统级软件和共享资源。2. 历史演变在Unix早期版本中,/usr是用户主目录的默认位置。由于存储设备容量限制,新增硬盘挂载到/usr下存放非核心程序。随着用户规模扩大,/home目录独立出来专门存放用户数据,而/usr逐渐成为系统软件资源的集中地。

2025-05-05 22:06:05 315

原创 linux下,查看占用某端口的进程id,究竟有多少种方法?lsof -i?netstat -tunlp?

在Linux系统中,排查端口占用问题是运维和开发的常见需求。本文将全面梳理,涵盖经典命令、新工具、底层文件系统操作及进阶技巧,帮助读者选择最适合的场景化解决方案。

2025-05-04 23:35:56 150

原创 ollama的一个诡异事实。sudo service ollama start v.s. nohup ollama serve &

我们在重复测试时发现更诡异的现象:同一台机器上不同运行方式加载的模型版本可能不同。通过三个实验对比,我们发现Ollama服务的运行方式直接影响其行为模式。两种方式运行的ollama,效果竟有如此大的不同。这也没啥嘛,服务关了,报错是应该的。

2025-05-04 23:26:09 11

原创 修改ollama.service都可以实现什么?

设置模型加载最长等待时间(默认 5 分钟),防止僵死进程。,以专用低权限账户运行服务,降低安全风险(需提前创建用户。允许所有来源的 HTTP 请求,解决前端跨域问题。设置临时文件存储路径,避免占用系统默认分区空间。启用详细调试日志,便于排查启动或运行问题。指定自定义模型存储路径(默认路径为。确保服务崩溃后自动重启,提升稳定性。针对多用户场景优化提示缓存。

2025-05-03 23:43:48 115

原创 linux下,ollama会把模型文件保存在哪里?

这还不简单,我把系统服务关掉,如果这个进程没有了,然后重启服务,它又在了,不就说明问题了吗?系统自己启动的ollama,实际上就是这个。不是很懂,大概率模型文件就在这两个文件夹里。我们用两种方式,来运行ollama。打完指令后,截图的进程没有了。0.6b果然挺2的。

2025-05-03 23:40:35 159

原创 cat file.tar.gz | tar -xzf - -C /target/dir两个减号之间为什么有个空格?是写错了吗?(管道命令后续)

这种写法是tar命令的标准语法,用于处理管道输入和指定解压目录的场景。参考来源中的多个安装脚本(如 Ollama 的install.sh)均采用此格式,验证了其正确性。

2025-05-02 23:24:26 945

原创 linux指令中的竖线(“|”)是干啥的?【含实例展示】

管道符是Linux命令行中最高效的工具之一,通过简单的组合即可实现复杂的数据处理。掌握其用法,能大幅提升运维和开发效率。遇到复杂任务时,不妨先拆解步骤,再通过管道串联命令,往往能事半功倍。

2025-05-02 23:10:26 972

原创 linux下安装ollama网不好怎么办?

也不知道咋回事儿,最近这个github,就是时好时坏的。也不知道为啥。

2025-05-01 23:20:03 373

原创 【Dify系列教程重置精品版】第五章:Dify配置Ollama

所以我在docker container里,访问localhost:11434时,实际无法访问到宿主机的11434,也就没办法调用宿主机上的ollama。安装时我们会发现,ollama是默认安装在C盘的,我们没得选,可如果我C盘已经红了,想安装到D盘如何操作呢?可以使用,但是我这边反应速度是很慢的,没有“月之暗面”反应快。参考上一讲,在上次配置的“小娇娇”对话框,点击右上角,选择我们新配置的deepseek;等待下载结束 ,就可以在本地 使用了,上面图片可以看到,是可以进行正常的交流的。

2025-05-01 22:33:20 660

原创 Qwen3本地化部署,准备工作:SGLang

该框架近期新增对混合专家(MoE)模型的原生支持,并在 2025 年 MLPerf 基准测试中创下 72K tokens/秒的吞吐量记录。SGLang 是一个面向大语言模型和视觉语言模型的高效服务框架。Qwen3是通义千问系列大语言模型的最新版本,提供包括密集型和混合专家(MoE)模型的完整产品矩阵。该版本在保持技术专业性的同时,通过双模式架构设计平衡了专业任务处理与日常交互需求,标志着大模型技术向实用化方向的重要演进。但显存大的各位大佬,还是可以试试的。这个算力要求太高了,咱就不想了。

2025-04-30 23:42:01 277

原创 【Dify系列教程重置精品版】第四章:实现Dify的 hello world

进入之后,我们选择模型供应商,这里我选择的是"月之暗面"也就是"KIMI",因为我已经安装了,下面就以“深度求索”为例。这里我已经配置了一个叫小娇娇的AI,但是仅仅名字是小娇娇,与我们的目标还差很远,不过总归是初见端倪。在左侧框中写下我们的要求,全部是中文就可以,我忘记截图了,就用代码中的凑合一下:点击“生成”->“应用”点击右上角我们的账户头像 ,点击“设置”。我再安装后,界面没有反应,重新刷新页面就好了。复制下来,填写到我们Dify的页面中即可。太可爱了,公司有这样的秘书我天天去。

2025-04-30 22:21:52 342

原创 23G显存可以跑多大尺寸的Qwen3?

随着阿里Qwen3系列大模型的发布,开发者们对如何在有限显存下部署不同尺寸的模型尤为关注。本文基于Qwen3的技术特性和实际测试数据,探讨在23G显存环境下可运行的模型选择及优化策略。不过由于咱财力有限,只有一张A100,还不是空的,目前只有23G的显存。那么这23G显存能跑什么模型呢?

2025-04-29 23:44:15 268

原创 【Dify系列教程重置精品版】第三章:Dify平台的本地化部署

既然我们的目的是让老板使用小娇娇点外卖,网页版肯定就不可选了。既然有GitHub,那他一般是开源的,并且可以本地化部署。果不其然又报错了,他说:“连接不到桌面的Docker引擎。儿豁,这里他说,不知我在讲什么,不认识 git。上一章我们聊了部署Dify的前提,这一章终于可以开始本地化部署Dify了。第一步:我们把dify下载到自己的电脑(或者服务器)上。第二步:按照dify的github给出的指令,对dify进行安装。现在假设我的端口是1234,输入下面这两条指令。简单,我们直接下载一个也不麻烦。

2025-04-29 10:35:20 419

原创 有哪些和PPT自动生成有关的MCP项目?

MCP通过协议标准化和工具链整合,正在推动PPT生成从“人工操作”向“智能编排”转变。当前,SlideSpeak等项目的成功验证了该路径的可行性,而更广泛的生态建设(如开源MCP Server库、企业API适配)将是下一阶段的关键。对于开发者而言,掌握MCP协议与主流PPT工具的对接技术,将成为提升AI应用价值的重要能力。

2025-04-28 23:47:13 369

原创 GRPO有什么缺点,如何改进?

GRPO通过创新的组内相对奖励机制,在特定任务中实现了资源效率与性能的平衡。然而,其存在的优化偏差、稳定性缺陷和理论缺口仍需学术界与工业界共同攻克。随着Dr. GRPO、MGRPO等改进方案的提出,以及理论分析的逐步深入,GRPO有望成为复杂推理任务强化学习的标准范式。

2025-04-28 23:41:18 93

原创 大模型、知识图谱和强化学习三者的结合,可以形成哪些研究方向?

大模型(Large Language Models, LLMs)、知识图谱(Knowledge Graph, KG)与强化学习(Reinforcement Learning, RL)作为人工智能领域的三大核心技术,其融合正推动着认知智能迈向新高度。本文结合2023-2025年的最新研究成果,系统梳理三者结合的七大科研方向及其技术路径。

2025-04-27 23:39:52 96

原创 【Dify系列教程重置精品版】第二章:在Windows上部署Dify

让我们的电脑允许使用Linux系统。有点兴奋是怎么回事?简单来说就是让你的电脑拥有另一个叫做Linux的系统。3.选择“适用于Linux的Windows子系统”与 “虚拟机平台”与“Hyper-V"第1章:安装 wsl (Windows Subsystem for Linux)上一章我们聊了什么是Dify,这一章我们讲一下怎么才能用Dify。好了,我们的环境部署好了,下一章我们正式进入Dify。下载完成后,我们直接一直无脑下一步,安装即可。完成上述步骤,我们就可以开始安装wsl了。我们的虚拟化也是开启的。

2025-04-27 22:06:30 215

原创 Weaviate使用入门:从零搭建向量数据库的完整指南

Weaviate是一款开源向量搜索引擎,专为存储和检索高维向量数据设计,支持文本、图像等多种媒体类型。低延迟:毫秒级响应时间,适用于实时场景。灵活扩展:支持数十亿级数据对象,模块化架构可集成自定义模型(如PyTorch、TensorFlow)。多模态支持:适配文本、图像、音视频等多种数据类型。云原生设计:提供GraphQL和REST API,无缝对接现有技术栈(如LangChain)。创建数据类(Class)schema = {],

2025-04-26 23:26:39 247

原创 详解 `from datasets import load_dataset`:数据格式、公开数据集与自定义数据集实战指南

本地文件加载# 加载多 JSONL 文件动态内存构建复杂预处理 Pipeline结合map分布式优化技巧# 保存为 Arrow 格式加速后续加载。

2025-04-26 23:19:45 190

原创 【闲聊记录向】我的贪吃蛇智能体现在怎么样了?

我翻看了强化学习这个专题下的日志,发现第一篇文章是4月3号发的。经过了20多天的奋战,我现在终于算是把强化学习相关的一些内容搞明白了。这个系列看的人不是很多,但自己还是蛮开心的,就当是取悦自己吧。

2025-04-25 23:45:15 452

原创 【Dify系列教程重置精品版】第一章: 相关概念介绍

方式实现大语言模型(LLM)与业务场景的深度结合。Dify作为新一代AI应用开发平台,通过。(完整代码示例及工作流配置详见后续课程)

2025-04-25 22:57:54 118

原创 让贪吃蛇小游戏适配大语言模型(含代码)

标准化接口:符合reset()step()范式可观测性:提供丰富的状态信息可重复性:通过状态序列化支持实验复现扩展性:模块化设计便于功能扩展后续可结合DQN、PPO等算法实现自动游戏控制,也可作为强化学习教学案例使用。

2025-04-24 23:37:17 133

原创 历时一个月,终于对强化学习有了一知半解的了解,完成了一段心心年的代码,基于GRPO和大模型实现AI玩贪吃蛇

目前刚开始训练,明天看看训练的效果吧。

2025-04-24 23:32:21 287

原创 rl中,GRPO损失函数详解。

在TRL(Transformer Reinforcement Learning)库中,GRPO(Group Relative Policy Optimization)是一种基于策略优化的强化学习算法,其核心目标是通过组内相对奖励和KL散度约束实现稳定高效的模型训练。以下结合代码实现,详细解析GRPO损失函数的设计逻辑。GRPO的提出是为了解决传统PPO(Proximal Policy Optimization)算法中依赖价值模型(Value Model)带来的计算复杂性问题。

2025-04-23 23:25:02 78

原创 这个经常看到,但好像不会也没啥影响的Jinja是个什么东西?盘点各类用法

你可能在Flask的HTML模板里见过它,或在Ansible的配置文件中偶遇过它的语法,甚至是在静态网站生成器中无意间调用过它的功能。,核心目标是将业务逻辑与展示层分离,通过模板动态生成文本内容(如HTML、XML、配置文件等)。它的设计理念是“允许模板设计师拥有足够的表达能力,同时避免过度侵入业务逻辑”。,Jinja以简洁的语法和强大的扩展能力,悄然支撑着从Web开发到运维自动化的多种场景。(base.html):定义通用结构(如页头、页脚)。👆在大模型中,jinja被用来描述默认的对话模板。

2025-04-23 06:48:39 153

原创 盘点那些用于多轮对话的Special Token

Special Token是语言模型中预定义的符号,用于标注对话结构而非直接参与语义表达。它们通过注意力机制与上下文交互,帮助模型识别对话轮次边界、角色切换和任务指令。角色标记(如<|user|>)划分说话者身份,确保回复风格一致性状态标记(如[REC][GEN])引导模型执行推荐或闲聊等特定动作结构化标记(如)封装元数据,防止注入攻击。

2025-04-22 23:05:47 132

原创 盘点HuggingFace Tokenizer的常见操作

掌握Hugging Face Tokenizer的细节能显著提升NLP任务效率。建议结合官方文档和实际项目需求,灵活选择分词策略与配置参数。随着多模态和长文本模型的发展,Tokenizer的功能将持续扩展,开发者需保持对新特性的关注。

2025-04-22 23:00:10 84

原创 盘点强化学习中的各种O(DPO、PPO、GRPO等)

在强化学习领域,以字母"O"(Optimization)结尾的算法因其独特的优化机制和广泛的应用场景备受关注。这些算法覆盖了策略优化、偏好对齐、物理建模等多个方向,并在大模型对齐、机器人控制、复杂系统仿真等领域展现出强大潜力。本文将对PPO、GRPO、GPO等核心算法进行系统解析,并探讨其技术特点与前沿进展。

2025-04-21 18:38:17 133

原创 6G显存可以跑基于GRPO的LLM训练吗?(调包侠?无所谓啊。建议学习强化学习第一步,就是成为一个调包侠。)

由于6G显存,确实还是太小了,咱们能做的应该就仅仅是把模型跑起来而已,如果想得到实际的结果,还是得想办法找更优秀的显卡啊~Windows环境下,请使用wsl运行。

2025-04-21 18:20:11 248

原创 这可能是你一辈子都遇不到的一个bug。from unsloth import FastLanguageModel ImportError: cannot import name ‘FastLangua

今天给大家分享一个特别搞笑的报错。这个报错呢,你基本上一辈子都不会遇到一回。但你遇到了,也搜到了此博文,必然不免被原因逗笑。但同时,你要是没有搜到此博文,那就~

2025-04-20 23:14:00 152

原创 详解trl中的GRPOTrainer和GRPOConfig

GRPO是一种基于组内相对优势比较分组采样:对同一提示(prompt)生成多条回答(completions)形成组(group)。奖励归一化:计算组内回答的归一化奖励,避免依赖显式价值函数(Critic Model)。KL正则化:引入KL散度惩罚项,防止策略模型(Policy Model)过度偏离参考模型(Reference Model)。

2025-04-20 10:27:37 70

原创 可以用大语言模型玩贪吃蛇吗?咱也不知道,只能走一步,看一步了~

用大语言模型控制贪吃蛇虽在实时性、稳定性上不及传统RL,但其自然语言推理能力为游戏AI提供了新的可能性——或许未来我们能看到LLM在《星际争霸》《DOTA》等复杂游戏中的表现RIGHT = 0LEFT = 1UP = 2DOWN = 3# 初始化显示# 初始化游戏状态self.head,# 确保食物不生成在墙壁位置# 1. 收集用户输入quit()# 2. 移动# 3. 检查是否游戏结束reward = 0# 计算蛇头与食物的曼哈顿距离。

2025-04-19 23:19:09 103

原创 Policy Gradient思想、REINFORCE算法,以及贪吃蛇小游戏(四)(完结)

为了和这些算法框架保持一致,我们对梯度上升的目标加上了一个符号,变成损失函数的形式。这是一个以游戏的观测(observation,约等于state)作为输入,当前步骤下,采取各action的概率作为输出。损失函数越小,其相反数,也就是我们要梯度上升的目标,就越大,我们的策略获得的J就越大,我们的策略就会倾向于更优。熟悉过pytorch的都知道,我们只要有一个模型结构,再有一个损失函数,就可以构建出一个深度学习的模型。因此,如果咱的算法训出的智能体比较蠢的话,也是比较正常的。至此,模型大概的框架就有了。

2025-04-19 07:46:10 239

原创 J值即正义——Policy Gradient思想、REINFORCE算法,以及贪吃蛇小游戏(三)

有三个策略,分别是$\pi(θ1)$,$\pi(θ2)$,$\pi(θ3)$。他们的模型都是相同的,是同一个神经网络模型。所不同的是,他们的参数不同,也就导致了这实质上也算是3个不同的策略。那我应该选用哪个策略呢?或者说,我应该相信哪个θ呢?

2025-04-18 19:22:00 234

原创 用上PPO以后,我的贪吃蛇一下子变聪明了许多

通过Clipped Surrogate Objective限制策略更新幅度,避免传统策略梯度算法中因步长过大导致的性能崩溃。在我的实验中,PPO的奖励方差比A2C降低62%在这篇技术博客中,我将分享如何通过PPO(近端策略优化)算法让传统贪吃蛇游戏进化成智能体。策略网络(Actor)与价值网络(Critic)共享ResNet编码器但独立更新,既保持特征一致性又避免相互干扰。采用经验回放缓冲区+多epoch更新机制,相同样本可重复使用3-5次。整了台云端的服务器,把程序跑起来。

2025-04-18 18:23:55 49

原创 你们是怎么忍住不整一波AI玩贪吃蛇的?——Policy Gradient思想、REINFORCE算法,以及贪吃蛇小游戏(二)

J值即正义

2025-04-17 12:57:19 228

原创 小红书图文发布自动化脚本实现流程

通过以上流程,脚本可实现小红书的自动化图文发布,重点需关注元素定位准确性和异常处理机制。建议在可视化模式下调试通过后再启用无头模式(

2025-04-17 11:09:35 474

原创 Policy Gradient思想、REINFORCE算法,以及贪吃蛇小游戏(一)

强化学习的最终目的是找到一个策略,这个策略可以获得最大回报;而REINFORCE算法的目标就是要把这个回报最大化。

2025-04-16 14:04:04 309

原创 强化学习for贪吃蛇终于有点收敛了,现在把最新的情况给到大家

如果你的游戏是给机器玩的,那你需要明确地定义:状态、观测、奖励等等。我们知道,一个供机器用的游戏和供人用的还是不太一样。

2025-04-16 06:53:32 103

minemap设置背景.pptx

minemap 设置地图的背景,相当详细的操作流程。 一方面给大家提供方便,一方面给自己提供方便。

2019-06-05

electron 的hello world

就是官网第一个例子哈,windows上双击ele.bat即可运行哦。不能运行的话,重启一下再试试吧。

2016-12-24

把文件拖到上面就会被删除掉

把文件拖到上面就会被删除掉

2016-01-25

tensor_toolbox_2.6.zip

tensor_toolbox_2.6.zip

2015-08-23

spring web service 官网示例 基于spring-ws

原来的jax-ws不知道为什么总是不成功,最后放弃,换成这个。具体过程可以参考官网:http://docs.spring.io/spring-ws/site/reference/html/tutorial.html

2014-10-16

数字图像处理作业 vc++ mfc

代码都是厚颜无耻网上抄的,但总到一起还是花点时间,时间关系,有bug,希望大家后续改进

2014-10-14

安卓socket实现聊天与文件上传

包含了安卓手机与服务器互相发送消息,还有文件上传的代码。包括服务器端的java的代码也打包在里面。功能已经实现了,代码还有要被指正的地方。欢迎安卓的新手们跟我交流

2013-08-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除