帮助中心帮助中心

MATLAB环境

用MATLAB建立强化学习环境的动力学模型^®

在强化学习场景中，环境对代理交互的动态进行建模。环境:

从代理接收操作
输出由环境模型的动态行为产生的观察结果
生成一个奖励来衡量行为对完成任务的贡献程度

您可以在MATLAB中创建预定义的和自定义的环境。有关更多信息，请参见创建MATLAB强化学习环境．

功能

环境创建

`rlPredefinedEnv`	创建一个预定义的强化学习环境
`rlFunctionEnv`	使用函数指定自定义强化学习环境动态
`rlCreateEnvTemplate`	创建自定义强化学习环境模板
`rlMDPEnv`	为强化学习创造马尔可夫决策过程环境
`createMDP`	建立马尔可夫决策过程模型
`createGridWorld`	为强化学习创建一个二维网格世界
`validateEnvironment`	验证自定义强化学习环境

奖励计算

`generateRewardFunction`	从控制规范中生成奖励函数来训练强化学习代理
`exteriorPenalty`	一个点相对于有界区域的外部惩罚值
`hyperbolicPenalty`	点对有界区域的双曲惩罚值
`barrierPenalty`	点相对于有界区域的对数势垒惩罚值

神经网络环境

`rlNeuralNetworkEnvironment`	环境模型与深度神经网络过渡模型
`rlContinuousDeterministicTransitionFunction`	基于神经网络环境的确定性过渡函数逼近器对象
`rlContinuousGaussianTransitionFunction`	基于神经网络环境的随机高斯跃迁函数逼近器对象
`rlContinuousDeterministicRewardFunction`	基于神经网络环境的确定性奖励函数逼近器对象
`rlContinuousGaussianRewardFunction`	基于神经网络环境的随机高斯奖励函数逼近器对象
`rlIsDoneFunction`	基于神经网络环境的Is-done函数逼近器对象
`预测`	根据观察和行动输入数据，预测下一次观察、下一次奖励或发作终止
`评估`	给定观测(或观测-动作)输入数据，求函数逼近器对象的值
`加速`	基于神经网络的近似器对象梯度加速计算方案

环境界面

`rlFiniteSetSpec`	为强化学习环境创建离散的动作或观察数据规范
`rlNumericSpec`	为强化学习环境创建持续行动或观察数据规范
`getActionInfo`	从强化学习环境、代理或经验缓冲区获取动作数据规范
`getObservationInfo`	从强化学习环境、agent或经验缓冲区获取观测数据规格

重置环境

`重置`	重置环境、代理、经验缓冲区或策略对象
`设置`	设置强化学习环境或初始化数据记录器对象
`清理`	清理强化学习环境或数据记录器对象

主题

创建MATLAB强化学习环境
使用与代理交互的MATLAB对象建模环境动力学，生成响应代理动作的奖励和观察结果。
为强化学习设计器创建MATLAB环境
导入自定义MATLAB环境或创建预定义的MATLAB环境。
定义奖励信号
创造一个奖励信号来衡量代理在实现目标时的成功程度。
负载预定义控制系统环境
加载预置的MATLAB控制系统环境。
加载预定义的网格世界环境
在预定义的MATLAB网格世界环境中训练代理，这些环境的操作、观察和奖励已经定义好了。
创建自定义网格世界环境
通过定义自己的大小、奖励和障碍，创建自定义的MATLAB网格世界环境。
使用自定义函数创建MATLAB环境
通过提供自定义动态函数来创建强化学习环境。
从模板创建自定义MATLAB环境
通过创建和修改模板环境对象来定义自定义强化学习环境。