rlPPOAgent
近端政策优化强化学习代理
描述
近端政策优化(PPO)是一个模范自由,在网上,在政策、策略梯度强化学习方法。该算法交替采样数据通过环境之间交互和优化剪使用随机梯度下降法替代目标函数。可以是离散或连续的行动空间。
创建
语法
描述
从观察和行动规范创建代理
创建一个近端政策优化(PPO)代理一个环境与给定的观察和操作规范,使用默认初始化选择。代理的演员和评论家表示使用默认深层神经网络由观测规范代理
= rlPPOAgent (observationInfo
,actionInfo
)observationInfo
和操作规范actionInfo
。
创建一个PPO代理一个环境与给定的观察和操作规范。代理使用默认使用选项中指定的网络配置代理
= rlPPOAgent (observationInfo
,actionInfo
,initOpts
)initOpts
对象。Actor-critic代理不支持递归神经网络。初始化选项的更多信息,请参阅rlAgentInitializationOptions
。
指定代理选项
创建一个PPO代理并设置AgentOptions财产代理
= rlPPOAgent (___,agentOptions
)agentOptions
输入参数。使用这个语法的任何输入参数后以前的语法。
输入参数
属性
对象的功能
例子
提示
连续操作空间,这个代理不强制约束,规范设定的动作。在这种情况下,您必须执行行动空间中约束环境。
另请参阅
深层网络设计师|rlAgentInitializationOptions
|rlPPOAgentOptions
|rlStochasticActorRepresentation
|rlValueRepresentation
介绍了R2019b