rlPGAgent
策略梯度强化学习代理
描述
策略梯度(PG)算法是一种无模型、在线、基于策略的强化学习方法。PG代理是一种基于策略的强化学习代理,它直接计算出最优策略,使长期奖励最大化。动作空间可以是离散的,也可以是连续的。
创建
语法
描述
根据观察和行动规格创建代理
使用默认初始化选项,为具有给定观察和操作规范的环境创建策略梯度代理。代理中的行动者和评论家表示使用从观察规范构建的默认深度神经网络代理
= rlPGAgent (observationInfo
,actionInfo
)observationInfo
以及动作规范actionInfo
。
使用给定的观察和操作规范为环境创建策略梯度代理。代理使用默认网络,其中每个隐藏的全连接层具有在代理
= rlPGAgent (observationInfo
,actionInfo
,initOpts
)initOpts
对象。策略梯度代理不支持循环神经网络。有关初始化选项的详细信息,请参见rlAgentInitializationOptions
。
从演员和评论家表示创建代理
使用指定的参与者网络创建PG代理。默认情况下,代理
= rlPGAgent (演员
)UseBaseline
代理的属性为假
在这种情况下。
指定代理选项
创建一个PG代理并设置代理
= rlPGAgent (___,agentOptions
)AgentOptions
属性agentOptions
输入参数。在前面语法中的任何输入参数之后使用此语法。
输入参数
属性
对象的功能
例子
提示
对于连续的动作空间,使用
rlPGAgent
代理不强制操作规范设置的约束,因此必须在环境中强制操作空间约束。
另请参阅
深度网络设计器|rlAgentInitializationOptions
|rlPGAgentOptions
|rlStochasticActorRepresentation
|rlValueRepresentation
在R2019a中引入