rlTRPOAgent
信任域策略优化强化学习代理
描述
信任区域策略优化(TRPO)是一种无模型、在线、策略上、策略梯度强化学习方法。与标准策略梯度方法相比,该算法通过将更新的策略保持在接近当前策略的信任区域内,从而防止了显著的性能下降。动作空间可以是离散的,也可以是连续的。
有关TRPO代理的更多信息,请参见信任区域策略优化代理.有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
创建
语法
描述
根据观察和行动规格创建代理
使用默认初始化选项,为具有给定观察和操作规范的环境创建信任区域策略优化(TRPO)代理。代理中的行动者和评论家使用从观察规范构建的默认深度神经网络代理
= rlTRPOAgent (observationInfo
,actionInfo
)observationInfo
以及动作规范actionInfo
.的ObservationInfo
而且ActionInfo
的属性代理
设置为observationInfo
而且actionInfo
分别输入参数。
用给定的观察和操作规范为环境创建TRPO代理。属性中指定的选项配置的默认网络代理
= rlTRPOAgent (observationInfo
,actionInfo
,initOpts
)initOpts
对象。TRPO代理不支持循环神经网络。有关初始化选项的详细信息,请参见rlAgentInitializationOptions
.
指定代理选项
创建TRPO代理并设置AgentOptions属性代理
= rlTRPOAgent (___,agentOptions
)agentOptions
输入参数。在前面语法中的任何输入参数之后使用此语法。
输入参数
属性
对象的功能
例子
提示
对于连续操作空间,此代理不强制操作规范设置的约束。在这种情况下,必须在环境中强制执行操作空间约束。
对于PPO智能体,调优行为体网络的学习率是必要的,而对于TRPO智能体,则不需要调优。
对于高维观测,如图像,建议使用PPO, SAC或TD3试剂。
版本历史
R2021b中引入