rlPGAgentOptions

PG代理选项

展开全部页面

描述

使用一个rlPGAgentOptions对象指定策略梯度(PG)代理的选项。要创建PG代理，请使用rlPGAgent

有关PG代理的更多信息，请参见策略梯度代理．

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

创建

语法

opt = rlPGAgentOptions

opt = rlPGAgentOptions(Name,Value)

描述

选择= rlPGAgentOptions创建一个rlPGAgentOptions对象，以便在使用所有默认设置创建PG代理时用作参数。可以使用点表示法修改对象属性。

例子

选择= rlPGAgentOptions (名称,值）设置选项属性使用名称-值对。例如,rlPGAgentOptions (DiscountFactor, 0.95)创建折扣系数为的选项集0.95．可以指定多个名称-值对。将每个属性名称用引号括起来。

属性

全部展开

`UseBaseline`- - - - - -使用基线进行学习
`真正的`(默认)|`假`

使用基线进行学习的选项，指定为逻辑值。当UseBaseline是真正的，您必须指定一个评论家网络作为基线函数逼近器。

一般来说，对于较小参与者网络的简单问题，PG代理在没有基线的情况下工作得更好。

`EntropyLossWeight`- - - - - -熵损失权
`0`(默认)|之间的标量值`0`和`1`

熵损失权值，指定为之间的标量值0和1．更高的熵损失权值通过对过于确定采取何种行动施加惩罚来促进代理探索。这样做可以帮助代理脱离局部最优。

当在训练过程中计算梯度时，计算一个额外的梯度分量来最小化这个损失函数。

`ActorOptimizerOptions`- - - - - -Actor优化器选项
`rlOptimizerOptions`对象

参与者优化器选项，指定为rlOptimizerOptions对象。它允许您指定actor逼近器的训练参数，例如学习率，梯度阈值，以及优化器算法及其参数。有关更多信息，请参见rlOptimizerOptions和rlOptimizer．

`CriticOptimizerOptions`- - - - - -批评家优化器选项
`rlOptimizerOptions`对象

批评家优化器选项，指定为rlOptimizerOptions对象。它允许你指定临界近似器的训练参数，如学习率，梯度阈值，以及优化器算法及其参数。有关更多信息，请参见rlOptimizerOptions和rlOptimizer．

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量|`1`

药剂的取样时间，用正标量或1．将此参数设置为1允许基于事件的模拟。

在Simulink中^®环境中,RL代理块中指定代理执行每个SampleTime模拟时间的秒数。如果SampleTime是1，块从它的父子系统继承采样时间。

在MATLAB中^®环境中，代理在每次环境前进时执行。在这种情况下，SampleTime输出经验中连续元素之间的时间间隔是否由sim卡或火车．如果SampleTime是1，返回的输出体验中连续元素之间的时间间隔反映了触发代理执行的事件的时间。

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于或等于1的正标量

在训练期间应用于未来奖励的折扣系数，指定为小于或等于1的正标量。

对象的功能

rlPGAgent 策略梯度强化学习代理

例子

全部折叠

创建PG Agent Options对象

打开实时脚本

这个例子展示了如何创建和修改PG代理选项对象。

创建PG代理选项对象，指定折扣因子。

opt = rlPGAgentOptions(“DiscountFactor”, 0.9)

opt = rlPGAgentOptions with properties: UseBaseline: 1 EntropyLossWeight: 0 ActorOptimizerOptions: [1x1 rlPGAgentOptions .]rlooptimizeroptions: [1x1 rlooptimizeroptions .]rlOptimizerOptions] SampleTime: 1 DiscountFactor: 0.9000 InfoToSave: [1x1 struct]

可以使用点表示法修改选项。例如，设置座席采样时间为0.5．

opt.SampleTime = 0.5;

版本历史

在R2019a中引入

全部展开

R2022a:模拟与部署:`UseDeterministicExploitation`将被移除

房地产UseDeterministicExploitation的rlPGAgentOptions对象将在将来的版本中删除。使用UseExplorationPolicy的属性rlPGAgent代替。

之前，您设置UseDeterministicExploitation如下。

强制代理总是选择具有最大可能性的操作，从而使用贪婪确定性策略进行模拟和部署。
```
agent.AgentOptions.UseDeterministicExploitation = true;
```
允许代理通过对其概率分布进行采样来选择其行为，以进行模拟和策略部署，从而使用探索观察空间的随机策略。
```
agent.AgentOptions.UseDeterministicExploitation = false;
```

从R2022a开始，设置UseExplorationPolicy如下。

强制代理总是选择具有最大可能性的操作，从而使用贪婪确定性策略进行模拟和部署。
```
代理。userexplorationpolicy = false;
```
允许代理通过对其概率分布进行采样来选择其行为，以进行模拟和策略部署，从而使用探索观察空间的随机策略。
```
代理。userexplorationpolicy = true;
```

类似于UseDeterministicExploitation，UseExplorationPolicy只影响模拟和部署;这并不影响训练。

另请参阅

主题

策略梯度代理

rlPGAgentOptions

描述

创建

语法

描述

属性

UseBaseline- - - - - -使用基线进行学习真正的(默认)|假

EntropyLossWeight- - - - - -熵损失权0(默认)|之间的标量值0和1

ActorOptimizerOptions- - - - - -Actor优化器选项rlOptimizerOptions对象

CriticOptimizerOptions- - - - - -批评家优化器选项rlOptimizerOptions对象

SampleTime- - - - - -药剂取样时间1(默认)|积极的标量|1

DiscountFactor- - - - - -折现系数0.99(默认)|小于或等于1的正标量