主要内容

rlPGAgentOptions

PG代理选项

描述

使用一个rlPGAgentOptions对象来指定策略渐变(PG)代理的选项。要创建PG代理,请使用rlPGAgent

有关PG代理的更多信息,请参见政策梯度代理

有关不同类型的强化学习代理的更多信息,请参见强化学习代理

创建

描述

选择= rlPGAgentOptions创建一个rlPGAgentOptions对象,以便在使用所有默认设置创建PG代理时作为参数使用。可以使用点表示法修改对象属性。

例子

选择= rlPGAgentOptions (名称,值设置选项属性使用名称-值对。例如,rlPGAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95.可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

选项使用基线进行学习,指定为逻辑值。当UseBaseline真正的,必须指定一个临界网络作为基线函数逼近器。

一般来说,对于较小参与者网络的简单问题,PG代理在没有基线的情况下工作得更好。

熵损失权重,指定为一个介于之间的标量值0而且1.较高的熵损失权重值通过对过于确定行动的行为施加惩罚来促进代理的探索。这样做可以帮助代理移出本地最优。

当在训练过程中计算梯度时,将计算一个额外的梯度分量以使该损失函数最小化。

参与者优化器选项,指定为rlOptimizerOptions对象。它允许您指定actor近似器的训练参数,如学习率,梯度阈值,以及优化器算法及其参数。有关更多信息,请参见rlOptimizerOptions而且rlOptimizer

批评家优化器选项,指定为rlOptimizerOptions对象。它允许您指定临界逼近器的训练参数,如学习率,梯度阈值,以及优化器算法及其参数。有关更多信息,请参见rlOptimizerOptions而且rlOptimizer

代理的采样时间,指定为正标量或-1.将此参数设置为-1允许基于事件的模拟。

在一个模型®环境中,RL代理块,指定代理在其中执行SampleTime秒模拟时间。如果SampleTime-1,该块从其父子系统继承采样时间。

在MATLAB®在环境中,每当环境前进时,都会执行代理。在这种情况下,SampleTime是否返回输出经验中连续元素之间的时间间隔sim卡火车.如果SampleTime-1,返回的输出经验中连续元素之间的时间间隔反映了触发代理执行的事件的时间。

折扣因子应用于训练期间的未来奖励,指定为小于或等于1的正标量。

对象的功能

rlPGAgent 政策梯度强化学习代理

例子

全部折叠

这个例子展示了如何创建和修改PG代理选项对象。

创建一个PG代理选项对象,指定折扣因子。

选择= rlPGAgentOptions (“DiscountFactor”, 0.9)
属性:UseBaseline: 1 EntropyLossWeight: 0 ActorOptimizerOptions: [1x1 rl.option。rlotimizeroptions: [1x1 rl.option.]rlOptimizerOptions] SampleTime: 1 DiscountFactor: 0.9000 InfoToSave: [1x1 struct]

可以使用点表示法修改选项。例如,将代理采样时间设置为0.5

opt.SampleTime = 0.5;

版本历史

介绍了R2019a

全部展开

另请参阅

Baidu
map