强化学习核心算法：深度Q网络（DQN）算法

最新推荐文章于 2025-03-12 16:43:06 发布

一只蜗牛儿

最新推荐文章于 2025-03-12 16:43:06 发布

阅读量2.6k

点赞数 10

文章标签：算法

本文链接：https://blog.csdn.net/qq_42978535/article/details/144733948

版权

深度Q网络（DQN, Deep Q-Network）是强化学习中的一个突破性算法，它将深度学习与Q学习相结合，成功解决了Q学习在处理高维输入（如图像、视频等）时遇到的困难。DQN 通过使用卷积神经网络（CNN）来估计Q值函数，从而有效地学习了复杂的策略。2015年，DeepMind提出了DQN，并且在多款经典游戏上表现出了人类水平的表现，标志着深度强化学习的一个重要里程碑。

本文将详细介绍DQN的核心思想、算法原理，并给出代码实现。

1. Q学习复习

Q学习（Q-Learning）是强化学习中的一种基于值函数的方法。它通过学习一个动作价值函数来评估在给定状态下执行某个动作的期望回报，公式如下：

[
Q(s, a) = r + \gamma \max_{a’} Q(s’, a’)
]

其中：

( Q(s, a) ) 是在状态 ( s ) 下采取动作 ( a ) 的Q值。
( r ) 是执行动作 ( a ) 后获得的即时奖励。
( \gamma ) 是折扣因子，控制未来奖励的影响。
( \max_{a’} Q(s’, a’) ) 是从下一个状态 ( s’ ) 开始，所有可能动作的最大Q值。

Q学习的目标是通过不断更新Q值函数来寻找最优策略。

2. 深度Q网络（DQN）引入

DQN结合了深度学习和Q学习，通过使用深度神经网络（通常是卷积神经网络）来逼近Q值函数。与经典Q学习不同，DQN使用一个深度神经网络来对大规模的状态空间进行函数逼近。

DQN的主要创新点包括：

经验回放（Experience Replay）：为了打破样本之间的相关性，DQN使用一个经验回放池来存储代理的经历，并从中随机抽取批量样本进行训练。
目标网络（Target Network）：为了克服Q学习中的高方差问题，DQN使用了一个目标网络，它的参数定期从主网络复制，而不是每次都更新，从而减少训练过程中的不稳定性。

3. DQN算法流程

DQN的核心思想是用神经网络代替Q表，神经网络的输入是状态，输出是每个动作的Q值。具体步骤如下：

初始化：
- 初始化Q网络（主网络）和目标网络（Target Network）。目标网络的参数与主网络相同。
- 初始化经验回放池（Experience Replay Buffer）。
每一步训练：
- 在每个时间步，从环境中获取当前状态 ( s_t )。
- 使用当前的Q网络选择一个动作 ( a_t )（例如ε-greedy策略：以某个概率选择随机动作，以某个概率选择最大Q值对应的动作）。
- 执行动作 ( a_t )，并观察得到的奖励 ( r_t ) 和下一个状态 ( s_{t+1} )。
- 将转移 ( (s_t, a_t, r_t, s_{t+1}) ) 存储到经验回放池中。
- 从经验回放池中随机抽取一批数据进行训练，计算当前Q值和目标Q值，并通过反向传播更新Q网络的参数。
更新目标网络：
- 每隔一定步数，将目标网络的参数复制为主网络的参数。

4. DQN的核心公式

DQN的损失函数是基于贝尔曼方程的，这与经典Q学习的更新规则一致。具体来说，损失函数 ( L(\theta) ) 用于衡量Q网络输出的Q值与目标Q值之间的差距：

[
L(\theta) = \mathbb{E}{(s_t, a_t, r_t, s{t+1}) \sim \mathcal{D}} \left[ \left( y_t - Q(s_t, a_t; \theta) \right)^2 \right]
]

其中 ( y_t ) 是目标Q值，计算公式为：

[
y_t = r_t + \gamma \max_{a’} Q(s_{t+1}, a’; \theta^-)
]

( Q(s_t, a_t; \theta) ) 是当前Q网络的输出。
( \theta^- ) 是目标网络的参数。
( \mathcal{D} ) 是经验回放池中的样本。

5. DQN算法的Python实现

以下是一个简单的DQN算法实现，假设我们使用OpenAI的Gym库作为环境，并且基于PyTorch实现神经网络。

5.1 环境和库的准备

pip install gym torch numpy matplotlib

5.2 DQN的代码实现

import gym
import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import random
from collections import deque
import matplotlib.pyplot as plt

# 定义Q网络模型
class QNetwork(nn.Module):
    def __init__(self, state_size, action_size):
        super(QNetwork, self).__init__()
        self.fc1 = nn.Linear(state_size, 128)
        self.fc2 = nn.Linear(128, 128)
        self.fc3 = nn.Linear(128, action_size)

    def forward(self, state):
        x = torch.relu(self.fc1(state))
        x = torch.relu(self.fc2(x))
        return self.fc3(x)

# DQN代理
class DQNAgent:
    def __init__(self, state_size, action_size, gamma=0.99, epsilon=1.0, epsilon_decay=0.995, epsilon_min=0.01, batch_size=64, memory_size=100000):
        self.state_size = state_size
        self.action_size = action_size
        self.gamma = gamma  # 折扣因子
        self.epsilon = epsilon  # 探索率
        self.epsilon_decay = epsilon_decay  # 探索率衰减
        self.epsilon_min = epsilon_min  # 最小探索率
        self.batch_size = batch_size
        self.memory = deque(maxlen=memory_size)  # 经验回放池
        self.qnetwork_local = QNetwork(state_size, action_size)  # 主Q网络
        self.qnetwork_target = QNetwork(state_size, action_size)  # 目标Q网络
        self.optimizer = optim.Adam(self.qnetwork_local.parameters(), lr=0.0005)  # 优化器
        self.loss_fn = nn.MSELoss()  # 损失函数

    def act(self, state):
        if np.random.rand() <= self.epsilon:
            return random.randrange(self.action_size)  # 随机选择动作
        state = torch.FloatTensor(state).unsqueeze(0)  # 转换为tensor并加上批次维度
        q_values = self.qnetwork_local(state)
        return torch.argmax(q_values).item()  # 选择Q值最大的动作

    def step(self, state, action, reward, next_state, done):
        self.memory.append((state, action, reward, next_state, done))  # 将经验存入回放池
        if len(self.memory) > self.batch_size:
            self.learn()  # 如果经验池足够大，开始学习

    def learn(self):
        # 从回放池中随机抽取批量经验
        batch = random.sample(self.memory, self.batch_size)
        states, actions, rewards, next_states, dones = zip(*batch)

        states = torch.FloatTensor(states)
        actions = torch.LongTensor(actions).unsqueeze(1)
        rewards = torch.FloatTensor(rewards)
        next_states = torch.FloatTensor(next_states)
        dones = torch.BoolTensor(dones)

        # 计算目标Q值
        q_next = self.qnetwork_target(next_states).detach()  # 目标网络Q值
        q_target = rewards + self.gamma * torch.max(q_next, dim=1)[0] * (~dones)

        # 获取当前Q值
        q_expected = self.qnetwork_local(states).gather(1, actions)

        # 计算损失
        loss = self.loss_fn(q_expected.squeeze(), q_target)

        # 反向传播和优化
        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()

        # 更新epsilon
        if self.epsilon > self.epsilon_min:
            self.epsilon *= self.epsilon_decay

    def update_target_network(self):
        self.qnetwork_target.load_state_dict(self.qnetwork_local.state_dict())  # 更新目标网络的参数

# 训练DQN代理
def train_dqn(agent, env, episodes=1000):
    rewards = []
    for e in range(episodes):
        state = env.reset()
        total_reward = 0
        done = False
        while not done:
            action = agent.act(state)
            next_state, reward, done, _ = env

.step(action)
            agent.step(state, action, reward, next_state, done)
            state = next_state
            total_reward += reward
        rewards.append(total_reward)

        if e % 10 == 0:
            agent.update_target_network()  # 每隔一定步数更新目标网络

        if e % 100 == 0:
            print(f"Episode {e}/{episodes}, Total Reward: {total_reward}, Epsilon: {agent.epsilon}")

    return rewards

# 设置环境和参数
env = gym.make('CartPole-v1')
state_size = env.observation_space.shape[0]
action_size = env.action_space.n
agent = DQNAgent(state_size, action_size)

# 训练代理
rewards = train_dqn(agent, env)

# 绘制训练结果
plt.plot(rewards)
plt.xlabel('Episode')
plt.ylabel('Total Reward')
plt.show()