培训和验证
训练和模拟强化学习代理
为了学习最优策略,强化学习代理通过反复的试错过程与环境相互作用。在训练过程中,代理调整其策略表示的参数以实现长期回报的最大化。Reinforcement Learning Toolbox™软件提供训练代理和通过仿真验证训练结果的功能。有关更多信息,请参见训练强化学习代理.
应用程序
强化学习设计 | 设计、训练和模拟强化学习代理 |
功能
主题
训练与模拟基础
- 训练强化学习代理
通过在特定环境中训练代理来找到最优策略。 - 在基本网格世界中训练强化学习代理
训练q学习和SARSA代理在MATLAB中求解网格世界®. - 在MDP环境中训练强化学习代理
在一般马尔可夫决策过程环境中训练强化学习代理。 - 创建Simulink环境和Train Agent
使用在Simulink中建模的植物进行强化学习训练控制器®作为训练环境。 - 针对简单情境土匪问题的强化学习代理训练
训练一个强化学习代理来解决一个上下文强盗问题。 - 将训练数据记录到磁盘
在训练代理时将各种数据记录到磁盘。 - 利用参数扫描训练强化学习代理
使用超参数扫描训练强化学习代理。
使用强化学习设计器应用程序
- 使用强化学习设计器设计和训练代理
设计并训练一个车杆系统的DQN代理强化学习设计应用程序。 - 在强化学习设计器中指定模拟选项
交互式地指定模拟强化学习代理的选项。 - 在强化学习设计器中指定训练选项
交互地指定训练强化学习代理的选项。
使用多进程和gpu
- 使用并行计算和图形处理器训练代理
通过在多个核、gpu、集群或云资源上并行运行模拟,加速代理培训。 - 用并行计算训练交流代理平衡车-杆系统
使用异步并行计算训练actor- critical代理。 - 利用并行计算训练DQN代理进行车道保持辅助
使用并行计算为自动驾驶应用程序训练强化学习代理。
训练代理控制双积分器系统
- 训练DDPG代理控制双积分器系统
训练深度确定性策略梯度代理控制MATLAB建模的二阶动态系统。 - 用基线训练PG代理控制双积分器系统
训练一个带基线的策略梯度来控制MATLAB建模的双积分器系统。
训练代理人平衡车杆系统
- 训练DQN代理平衡车杆系统
训练深度q学习网络代理对MATLAB建模的车杆系统进行平衡。 - 训练PG代理人平衡车杆系统
训练一个策略梯度代理来平衡MATLAB建模的车杆系统。 - 训练交流装置平衡车杆系统
训练一个actor- critical agent来平衡MATLAB建模的车-杆系统。 - 训练DDPG代理人摆动和平衡车杆系统
训练一个深度确定性的政策梯度代理来摆动和平衡一个模型中的车杆系统Simscape™多体™. - 培训MBPO代理平衡车杆系统
基于模型的强化学习代理学习其环境的模型,它可以使用该模型生成额外的训练经验。
训练代理人向上摆动和平衡摆
- 训练DQN代理上摆和平衡摆
训练Deep Q-network代理平衡Simulink中建模的钟摆。 - 训练DDPG代理上摆和平衡摆
训练一个深度确定性策略梯度代理来平衡在Simulink中建模的钟摆。 - 训练DDPG代理用总线信号上摆和平衡摆
训练一个强化学习代理来平衡一个摆的Simulink模型,该模型在总线信号中包含观察结果。 - 利用图像观察训练DDPG代理上摆和平衡摆
使用基于图像的观察信号训练强化学习代理。 - 使用深度网络设计器创建代理和使用图像观察训练
使用深度学习工具箱™中的深度网络设计器应用程序创建强化学习代理。
多代理培训
- 训练多个代理执行协作任务
训练两个PPO代理协同移动一个对象。 - 为区域覆盖培训多名工作人员
训练三个PPO代理以合作-竞争的方式探索网格世界环境。 - 训练多个代理进行路径跟随控制
训练一个DQN和一个DDPG代理协同执行自适应巡航控制和车道保持辅助以跟踪路径。
从控制规格中生成奖励
- 从伺服电机模型预测控制器中生成奖励函数
从应用于伺服电机的MPC控制器中生成奖励函数。 - 从水箱系统的模型验证块生成奖励函数
从应用于水箱系统的模型验证块中生成奖励函数。
模仿学习
- 模拟MPC控制器的车道保持辅助
训练深度神经网络在车道保持辅助系统中模拟模型预测控制器的行为。 - 飞行机器人的非线性MPC控制器仿真
训练深度神经网络模拟飞行机器人非线性模型预测控制器的行为。 - 用训练有素的演员网络培训DDPG特工
使用先前使用监督学习训练过的参与者网络来训练强化学习代理。
训练代理控制机器人
- 训练DDPG代理控制飞行机器人
训练强化学习代理控制飞行机器人模型。 - 训练PPO代理人降落火箭
训练一个强化学习代理来让火箭着陆。 - 使用强化学习代理训练两足机器人行走
训练强化学习代理来控制模型中的两足步行机器人Simscape多体.
训练座席执行控制任务
- 使用强化学习优化PI控制器
使用强化学习代理调整PI控制器的增益。 - 训练SAC特工进行球平衡控制
训练一个特工用机械臂在平面上平衡一个球。 - 训练强化学习代理控制Quanser QUBE摆
训练两个强化学习代理来平衡Quanser QUBE旋转倒立摆。 - 为PMSM控制培训TD3代理
训练强化学习剂来控制永磁体同步电机的电流。 - 用LSTM网络训练DQN Agent控制住宅供暖系统
训练一种强化学习剂来控制房子的温度。 - 用约束强制训练强化学习代理
使用Constraint Enforcement块训练动作受限的强化学习代理。
汽车应用培训代理商
- 培训DQN人员协助保持车道
为车道保持辅助应用程序训练强化学习代理。 - 训练DDPG代理进行自适应巡航控制
为自适应巡航控制应用训练强化学习代理。 - 对DDPG代理进行路径跟随控制的培训
训练一个强化学习代理,用于车道跟踪应用。 - 培训PPO代理自动泊车员
训练一个强化学习代理在一个开放的停车位上停车。
其他应用程序
- 培训PPO代理自动泊车员
训练一个强化学习代理在一个开放的停车位上停车。 - 训练用于光束选择的DQN代理
训练深度q网络(DQN)增强学习代理,用于5G新型无线电通信系统的波束选择。 - 基于强化学习的配水系统调度
训练一个DQN代理,以最佳地激活水分配系统中的水泵。
开发定制代理和训练算法
- 培训自定义LQR代理
培训自定义LQR代理。 - 使用自定义训练循环训练强化学习策略
使用您自己的自定义训练算法训练强化学习策略。 - 自定义训练循环与Simulink动作噪声
当动作噪声在模型中产生时,使用自定义训练循环在Simulink中训练强化学习策略。 - 为自定义强化学习算法创建代理
为自定义强化学习算法创建代理。 - 使用定制训练循环的基于模型的强化学习
您可以使用自己的自定义训练循环创建基于模型的强化学习代理。
部署代理和策略
- 运行SIL和PIL验证强化学习
在软件在循环和处理器在循环模式下验证RL Agent。 - 生成用于部署的策略块
生成一个策略块来部署经过训练的策略。