自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

哒哒哒哒 哒哒

你好哇 欢迎你 Hi~ o(* ̄▽ ̄*)ブ

  • 博客(193)
  • 收藏
  • 关注

原创 【深度强化学习 DRL 快速实践】稀疏奖励问题 sparse reward

比如,你要用强化学习让一个机械手臂学会开门,训练过程中只有开门成功后才能获得对应的奖励 【sparse reward】:想办法设计一些辅助的 reward 来引导 agent 实现你想要的目标:例如手臂朝门移动就给一点 reward。:增加一个 Curiosity 奖励项,鼓励冒险 (偏向导致难以预测的。:从宏观大任务,再拆解完成小任务 (如下图,粉红色的标识就是高层的规划):任务由简单开始,逐渐增加难度。

2025-04-26 18:21:02 355

原创 【深度强化学习 DRL 快速实践】Deep Q-learning

Q-learning 快速实践:model-free, off-policy, Value-based

2025-04-26 14:08:55 1007

原创 【深度强化学习 DRL 快速实践】近端策略优化 (PPO)

一种基于信赖域优化的强化学习算法,旨在克服传统策略梯度方法在更新时不稳定的问题,采用简单易实现的目标函数来保证学习过程的稳定性。

2025-04-25 23:05:55 1381

原创 【深度强化学习 DRL 快速实践】逆向强化学习算法 (IRL)

在传统的强化学习 (Reinforcement Learning, RL) 中,奖励函数是已知的,智能体的任务是学习一个策略来最大化奖励我们不知道奖励函数缺失的但是我们有专家的示范轨迹(比如专家怎么开车、怎么走路):τs0a0s1a1sTτs0​a0​s1​a1​sT​推断出奖励函数,使得专家行为在该奖励下是最优的简单来说,IRL 是"从专家行为中推断动机"TheactorDefine aactorTheactorOutput the。

2025-04-25 22:29:21 1223

原创 【深度强化学习 DRL 快速实践】异步优势演员评论员算法 (A3C)

A3C 快速实践:model-free, on-policy, actor-critic, stochastic 策略

2025-04-25 19:03:56 968

原创 【深度强化学习 DRL 快速实践】Value-based 方法总结

方法是否无偏方差水平特点是高基于完整回合真实回报进行无偏估计,适合无模型环境否低只看一步,收敛速度快、稳定,但引入了偏差在实际应用中,TD 方法(如 SARSA、Q-learning)最为广泛使用,因为它无需完整轨迹,学习效率更高。

2025-04-25 17:59:51 974

原创 【深度强化学习 DRL 快速实践】策略梯度算法 (PG)

PG 快速实践:model-free, on-policy, PG, stochastic 策略

2025-04-25 17:16:24 1258

原创 【深度强化学习 DRL 快速实践】深度确定性策略梯度算法 (DDPG)

DDPG 快速实践:model-free, off policy, actor-critic, deterministic 策略

2025-04-25 12:53:56 1047

原创 seq2seq

理解 transformer 中的 encoder + decoder。

2025-04-01 22:40:55 330

原创 【极速版 -- 大模型入门到进阶】Transformer: Attention Is All You Need -- 第一弹

🌊 Transformer 模块概述 -- 简化版本【1. Tokenization】把文字变成 Token ❄️【2. Input Layer】理解每个 Token (从语义和位置上) 🔥【3. Attention】考虑 Token 上下文 -- contextuallized token embedding【4. Feed Forward】整合思考【3 & 4 Transformer Block】反复思考【5 Ouput Layer】输出概率

2025-03-30 15:37:15 291

原创 【RLHF 理论与代码实战】GenAI HW6: LLM Values Alignment (DPO)

RLHF 理论与代码实战 (附完整代码,保姆级教程,包懂的好吧!)

2025-03-29 18:41:50 810 1

原创 【极速版 -- 大模型入门到进阶】LORA:大模型轻量级微调

🌊 有没有低成本的方法微调大模型?🌊 LoRA 的核心思想🌊 LoRA 的初始化和 r 的值设定🌊 LoRA 实战:LoraConfig参数详解

2025-03-28 22:20:49 771

原创 【极速版 -- 大模型入门到进阶】大模型如何学会使用对应的工具 (第二弹)

🌊 Toolformer 要达到的效果是什么🌊 【搜索操作和搜索结果】怎么结合到大模型的生成过程和结果中去的呢🌊 Toolformer 怎么学会使用外部工具:自监督学习使用工具

2025-03-26 21:41:44 683

原创 【极速版 -- 大模型入门到进阶】大模型如何学会使用对应的工具 (第一弹)

🌊 WebGPT 要达到的效果是什么🌊 【搜索操作和搜索结果】怎么结合到大模型的生成过程和结果中去的呢🌊 WebGPT 怎么学会使用 `网络搜索`工具

2025-03-26 18:35:08 294

原创 【极速版 -- 大模型入门到进阶】GPT + Gradio 聊天机器人从 0 到 1

🌊 环境准备🌊 配置 API 密钥🌊 定义与 GPT 的对话函数,支持多轮对话🌊 使用 Gradio 创建界面🌊 完整代码 & 结果展示

2025-03-23 15:58:13 477

原创 【极速版 -- 大模型入门到进阶】快速了解大型语言模型

🌊 大模型作为一种生成式人工智慧,厉害在哪儿?-> 通用能力🌊 LLM 如何生成输出:简而言之就是文字接龙🌊 GPT 之前 ...:模型规模和数据规模概览🌊 ChatGPT 有三个训练阶段:预训练、督导式学习、强化学习🌊 ChatGPT 使用:人类向 chatgpt 靠近🌊 ChatGPT 跟真实环境互动 (例如可以操控机器臂)

2025-03-23 00:44:40 567

原创 【OpenDrift 快速上手 02】OpenDrift 安装

opendrift 快速上手指南来啦~一起试试吧

2025-03-19 11:17:27 591

原创 【OpenDrift 快速上手 01】OpenDrift 是什么,能干啥 ?

opendrift 快速上手指南来啦~一起试试吧

2025-03-19 10:50:08 305

原创 【快速入门】Unity 常用组件(功能块)

💜💜。

2025-02-15 23:33:13 527

原创 【3min 简单示例】Unity 通过 C# 脚本旋转游戏物体

以匀速旋转一个立方体对象为例,展示具体`旋转`编码操作超简单必懂!不懂可以留言喔 ~

2025-02-15 04:00:00 568

原创 【1min 快速上手 Unity 基本使用方法】外部模型使用

图文演示,如何在unity中使用外部模型~ 1min 快速上手

2025-02-14 23:38:48 452

原创 【3min 简单示例】Unity 通过 C# 脚本移动游戏物体

以匀速移动一个立方体对象为例,展示具体位移编码操作

2025-02-14 04:00:00 1126

原创 【unity 新手教程 004/100】物体的网格、材质、纹理是什么? 必懂超清晰

物体的网格、材质、纹理是什么? 外部模型如何使用?必懂

2025-02-14 00:15:00 319

原创 【unity 新手教程 003/100】移动游戏物体 必懂超清晰

💜💜。

2025-02-13 15:32:13 260

原创 【unity 新手教程 002/100】 3D 视图相关快捷操作 必懂超清晰

💜💜。

2025-02-13 11:59:54 349

原创 【快速解决】虚拟机与主机之间如何通过 **共享文件夹** 进行文件传输

图文:三步解决虚拟机和主机之间的文件传输 -- 快速图文教程

2025-02-10 17:44:49 261

原创 【极速版 -- 大模型入门到进阶】除了 Prompting, 大模型还能如何被应用?

5min 上手大模型的三种主流应用方式:Prompting & RAG & Fine-tune

2025-01-13 16:29:00 791

原创 【极速版 -- 大模型入门到进阶】大模型如何运作?

1min 快速搞懂大模型基本运作机理,以及能做什么?

2025-01-10 16:37:48 785

原创 LeetCode 热题 HOT 100 (041/100)【宇宙最简单版】

💜💜 如有更好理解的思路,欢迎大家留言补充 ~ 一起加油叭 💦【优先级队列】No. 313 第 n 个超级丑数【中等】

2025-01-09 14:56:26 352

原创 LeetCode 热题 HOT 100 (040/100)【宇宙最简单版】

💜💜 如有更好理解的思路,欢迎大家留言补充 ~ 一起加油叭 💦【动态规划】No. 0312 戳气球【困难】

2025-01-07 17:58:07 498

原创 LeetCode 热题 HOT 100 (039/100)【宇宙最简单版】

💜💜 如有更好理解的思路,欢迎大家留言补充 ~ 一起加油叭 💦【贪心算法】No. 0121 买卖股票的最佳时机【简单】

2025-01-07 16:52:43 383

原创 【快速实践】类激活图(CAM,class activation map)可视化

【3min快速实践】深度学习训练中的辅助分析手段,类激活图可视化:有助于了解一张图像的哪一部分让卷积神经网络做出了最终的分类决策

2025-01-03 18:05:54 1435

原创 【快速实践】深度学习 -- 数据曲线平滑化

【1min 快速实践】在观察数据结果时,我们通常希望获得整体趋势信息 -- 所以可以应用平滑化手段绘制更易读的曲线

2025-01-03 14:15:46 535

原创 【概念速通】使用预训练网络的两种方法 -- 特征提取(feature extraction)和微调模型(fine-tuning)

【1min 概念速通】特征提取(feature extraction)和微调模型(fine-tuning)

2025-01-03 13:55:32 567

原创 Python + 深度学习从 0 到 1(03 / 99)

希望对你有帮助呀!!💜💜 如有更好理解的思路,欢迎大家留言补充 ~ 一起加油叭 💦。

2024-12-25 18:04:22 504

原创 Python + 深度学习从 0 到 1(02 / 99)

Keras 快速入门 & 实战手写数字分类 MNIST 数据集【极简版 20行代码搞定】

2024-12-25 11:18:15 569

原创 Python + 深度学习从 0 到 1(01 / 99)

本文给出两大概率建模(朴素贝叶斯和 logistic 回归)、核方法(SVM)和决策树的最简单!!!理论&简单代码示例

2024-12-19 15:44:41 1375

原创 Python + 深度学习从 0 到 1(00 / 99)

⭐ 什么是深度学习?人工智能、机器学习与深度学习的关系 💜图解深度学习的工作原理 💜⭐ 深度学习的通用工作流程

2024-11-22 14:28:03 1362

原创 【快速实践】使用 venv 创建指定 python 版本的虚拟环境并安装库

【代码】【快速实践】使用 venv 创建指定 python 版本的虚拟环境并安装库。

2024-11-18 16:39:44 2359

原创 LeetCode 热题 HOT 100 (038/100)【宇宙最简单版】

💜 如有更好理解的思路,欢迎大家留言补充 ~ 一起加油叭 💦【动态规划】No. 0337 打家劫舍III【中等】

2024-08-18 23:04:54 571

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除