CODE_RabbitV-CSDN博客

原创【深度强化学习 DRL 快速实践】稀疏奖励问题 sparse reward

比如，你要用强化学习让一个机械手臂学会开门，训练过程中只有开门成功后才能获得对应的奖励【sparse reward】：想办法设计一些辅助的 reward 来引导 agent 实现你想要的目标：例如手臂朝门移动就给一点 reward。：增加一个 Curiosity 奖励项，鼓励冒险 (偏向导致难以预测的。：从宏观大任务，再拆解完成小任务 (如下图，粉红色的标识就是高层的规划)：任务由简单开始，逐渐增加难度。

2025-04-26 18:21:02 355

原创【深度强化学习 DRL 快速实践】Deep Q-learning

Q-learning 快速实践：model-free, off-policy, Value-based

2025-04-26 14:08:55 1007

原创【深度强化学习 DRL 快速实践】近端策略优化 (PPO)

一种基于信赖域优化的强化学习算法，旨在克服传统策略梯度方法在更新时不稳定的问题，采用简单易实现的目标函数来保证学习过程的稳定性。

2025-04-25 23:05:55 1381

原创【深度强化学习 DRL 快速实践】逆向强化学习算法 (IRL)

在传统的强化学习 (Reinforcement Learning, RL) 中，奖励函数是已知的，智能体的任务是学习一个策略来最大化奖励我们不知道奖励函数缺失的但是我们有专家的示范轨迹（比如专家怎么开车、怎么走路）:τs0a0s1a1sTτs0a0s1a1sT推断出奖励函数，使得专家行为在该奖励下是最优的简单来说，IRL 是"从专家行为中推断动机"TheactorDefine aactorTheactorOutput the。

2025-04-25 22:29:21 1223

原创【深度强化学习 DRL 快速实践】异步优势演员评论员算法 (A3C)

A3C 快速实践：model-free, on-policy, actor-critic, stochastic 策略

2025-04-25 19:03:56 968

原创【深度强化学习 DRL 快速实践】Value-based 方法总结

方法是否无偏方差水平特点是高基于完整回合真实回报进行无偏估计，适合无模型环境否低只看一步，收敛速度快、稳定，但引入了偏差在实际应用中，TD 方法（如 SARSA、Q-learning）最为广泛使用，因为它无需完整轨迹，学习效率更高。

2025-04-25 17:59:51 974

原创【深度强化学习 DRL 快速实践】策略梯度算法 (PG)

PG 快速实践：model-free, on-policy, PG, stochastic 策略

2025-04-25 17:16:24 1258

原创【深度强化学习 DRL 快速实践】深度确定性策略梯度算法 (DDPG)

DDPG 快速实践：model-free, off policy, actor-critic, deterministic 策略

2025-04-25 12:53:56 1047

原创 seq2seq

理解 transformer 中的 encoder + decoder。

2025-04-01 22:40:55 330

原创【极速版 -- 大模型入门到进阶】Transformer: Attention Is All You Need -- 第一弹

🌊 Transformer 模块概述 -- 简化版本【1. Tokenization】把文字变成 Token ❄️【2. Input Layer】理解每个 Token (从语义和位置上) 🔥【3. Attention】考虑 Token 上下文 -- contextuallized token embedding【4. Feed Forward】整合思考【3 & 4 Transformer Block】反复思考【5 Ouput Layer】输出概率

2025-03-30 15:37:15 291

原创【RLHF 理论与代码实战】GenAI HW6: LLM Values Alignment (DPO)

RLHF 理论与代码实战（附完整代码，保姆级教程，包懂的好吧！）

2025-03-29 18:41:50 810 1

原创【极速版 -- 大模型入门到进阶】LORA：大模型轻量级微调

🌊 有没有低成本的方法微调大模型？🌊 LoRA 的核心思想🌊 LoRA 的初始化和 r 的值设定🌊 LoRA 实战：LoraConfig参数详解

2025-03-28 22:20:49 771

原创【极速版 -- 大模型入门到进阶】大模型如何学会使用对应的工具（第二弹）

🌊 Toolformer 要达到的效果是什么🌊 【搜索操作和搜索结果】怎么结合到大模型的生成过程和结果中去的呢🌊 Toolformer 怎么学会使用外部工具：自监督学习使用工具

2025-03-26 21:41:44 683

原创【极速版 -- 大模型入门到进阶】大模型如何学会使用对应的工具（第一弹）

🌊 WebGPT 要达到的效果是什么🌊 【搜索操作和搜索结果】怎么结合到大模型的生成过程和结果中去的呢🌊 WebGPT 怎么学会使用 `网络搜索`工具

2025-03-26 18:35:08 294

原创【极速版 -- 大模型入门到进阶】GPT + Gradio 聊天机器人从 0 到 1

🌊 环境准备🌊 配置 API 密钥🌊 定义与 GPT 的对话函数，支持多轮对话🌊 使用 Gradio 创建界面🌊 完整代码 & 结果展示

2025-03-23 15:58:13 477

原创【极速版 -- 大模型入门到进阶】快速了解大型语言模型

🌊 大模型作为一种生成式人工智慧，厉害在哪儿？-> 通用能力🌊 LLM 如何生成输出：简而言之就是文字接龙🌊 GPT 之前 ...：模型规模和数据规模概览🌊 ChatGPT 有三个训练阶段：预训练、督导式学习、强化学习🌊 ChatGPT 使用：人类向 chatgpt 靠近🌊 ChatGPT 跟真实环境互动 (例如可以操控机器臂)

2025-03-23 00:44:40 567