gym-super-mario-bros 项目使用教程

gym-super-mario-bros 项目使用教程

gym-super-mario-bros An OpenAI Gym interface to Super Mario Bros. & Super Mario Bros. 2 (Lost Levels) on The NES gym-super-mario-bros 项目地址: https://gitcode.com/gh_mirrors/gy/gym-super-mario-bros

1. 项目目录结构及介绍

gym-super-mario-bros/
├── gym_super_mario_bros/
│   ├── __init__.py
│   ├── actions.py
│   ├── __main__.py
│   ├── make.py
│   ├── speedtest.py
│   └── wrappers.py
├── tools/
│   ├── __init__.py
│   └── ...
├── .gitignore
├── LICENSE
├── README.md
├── makefile
├── requirements.txt
├── setup.py
└── ...

目录结构介绍

  • gym_super_mario_bros/: 包含项目的主要代码文件,包括环境定义、动作空间、主程序等。
    • __init__.py: 初始化文件,用于注册环境。
    • actions.py: 定义了不同类型的动作空间。
    • __main__.py: 项目的启动文件,包含命令行接口。
    • make.py: 用于创建环境实例。
    • speedtest.py: 速度测试脚本。
    • wrappers.py: 包含环境的包装器,用于自定义环境行为。
  • tools/: 包含一些辅助工具和脚本。
  • .gitignore: Git 忽略文件配置。
  • LICENSE: 项目许可证文件。
  • README.md: 项目说明文档。
  • makefile: 用于构建和安装项目的 Makefile。
  • requirements.txt: 项目依赖库列表。
  • setup.py: 用于安装项目的脚本。

2. 项目的启动文件介绍

__main__.py

__main__.py 是项目的启动文件,提供了命令行接口,允许用户通过命令行直接运行环境。

主要功能
  • 命令行接口: 允许用户通过命令行参数指定环境 ID 和游戏模式(人类玩家或随机模式)。
  • 环境初始化: 根据用户指定的环境 ID 初始化相应的超级马里奥环境。
  • 游戏运行: 根据指定的模式(人类玩家或随机模式)运行游戏。
使用示例
python -m gym_super_mario_bros -e SuperMarioBros-v0 -m human
  • -e: 指定环境 ID,默认为 SuperMarioBros-v0
  • -m: 指定游戏模式,可选值为 humanrandom,默认为 human

3. 项目的配置文件介绍

requirements.txt

requirements.txt 文件列出了项目运行所需的所有依赖库。

内容示例
gym>=0.18.0
nes-py>=8.1.8
numpy>=1.18.0

setup.py

setup.py 文件用于安装项目及其依赖库。

主要功能
  • 安装项目: 通过 pip install . 命令安装项目及其依赖库。
  • 依赖管理: 自动安装 requirements.txt 中列出的所有依赖库。
使用示例
pip install .

makefile

makefile 文件包含了一些常用的构建和安装命令。

主要命令
  • 安装依赖: make install 用于安装项目及其依赖库。
  • 测试: make test 用于运行项目的测试脚本。
  • 清理: make clean 用于清理项目中的临时文件。
使用示例
make install

通过以上介绍,您可以更好地理解和使用 gym-super-mario-bros 项目。

gym-super-mario-bros An OpenAI Gym interface to Super Mario Bros. & Super Mario Bros. 2 (Lost Levels) on The NES gym-super-mario-bros 项目地址: https://gitcode.com/gh_mirrors/gy/gym-super-mario-bros

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

### 使用PPO算法在gym-super-mario-bros环境中的实现 为了在 `gym-super-mario-bros` 游戏环境中应用近端策略优化 (Proximal Policy Optimization, PPO),可以按照以下方法构建模型并训练代理。以下是详细的说明: #### 安装依赖库 首先,确保安装必要的 Python 库来支持 `gym-super-mario-bros` 和强化学习框架 Stable Baselines3。 ```bash pip install nes-py gym-super-mario-bros stable-baselines3[extra] ``` 上述命令会安装 `nes-py`, `gym-super-mario-bros` 以及用于实现 PPO 的强化学习工具包 `Stable-Baselines3`[^1]。 --- #### 创建超级马里奥环境 通过导入 `SuperMarioBros-v0` 或其他变体创建游戏环境,并设置动作空间和观察空间。 ```python import gym_super_mario_bros from nes_py.wrappers import JoypadSpace from gym.spaces import Box from gym.wrappers import FrameStack from stable_baselines3.common.env_checker import check_env from stable_baselines3 import PPO # 初始化 Super Mario Bros 环境 env = gym_super_mario_bros.make('SuperMarioBros-v0') # 设置简化操作集 env = JoypadSpace(env, [['right'], ['right', 'A']]) # 将帧堆叠到一起以提供时间序列数据给神经网络 env = FrameStack(env, num_stack=4) # 验证环境是否兼容稳定基线的要求 check_env(env) ``` 此部分代码定义了一个简单的控制方案(右移或跳跃),并通过 `FrameStack` 提供连续四帧作为输入状态。 --- #### 训练PPO模型 使用 `stable-baselines3.PPO` 来初始化和训练代理。 ```python model = PPO( policy="CnnPolicy", env=env, verbose=1, tensorboard_log="./mario_ppo_tensorboard/" ) # 开始训练过程 model.learn(total_timesteps=int(1e6)) # 保存训练好的模型 model.save("ppo_mario") ``` 在此配置中: - **policy**: 使用卷积神经网络 (`CnnPolicy`) 处理图像型观测值。 - **total_timesteps**: 总共执行 $1 \times 10^6$ 时间步数进行训练。 - **tensorboard_log**: 可视化日志路径以便监控训练进展。 --- #### 测试已训练的模型 加载先前保存的模型并对环境运行推理测试。 ```python del model # 删除旧模型以防冲突 # 加载预训练模型 model = PPO.load("ppo_mario") state = env.reset() done = False while not done: action, _states = model.predict(state) state, reward, done, info = env.step(action) env.render() env.close() ``` 这段脚本展示了如何利用训练完成后的模型在游戏中做出决策。 --- ### 注意事项 1. 超参数调整对于性能至关重要。例如,更改学习率、批量大小或其他超参数可能显著影响收敛速度与最终效果。 2. 如果希望扩展功能,可考虑引入更复杂的奖励机制或者自定义环境封装器。 3. 对于更高难度级别(如世界 1-2 或以上),建议增加训练时间和样本数量。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

董灵辛Dennis

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值