rlTRPOAgentOptions

TRPO代理的选项

在页面中全部展开

描述

使用一个rlTRPOAgentOptions对象指定信任区域策略优化(TRPO)代理的选项。要创建TRPO代理，请使用rlTRPOAgent．

有关TRPO代理的更多信息，请参见信任区域策略优化代理．

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

创建

语法

选择= rlTRPOAgentOptions

选择= rlTRPOAgentOptions(名称、值)

描述

选择= rlTRPOAgentOptions创建一个rlPPOAgentOptions对象，以便在使用所有默认设置创建TRPO代理时作为参数使用。可以使用点表示法修改对象属性。

例子

选择= rlTRPOAgentOptions (名称,值）设置选项属性使用名称-值参数。例如,rlTRPOAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95．可以指定多个名称-值参数。将每个属性名用引号括起来。

属性

全部展开

`ExperienceHorizon`- - - - - -代理在学习之前与环境交互的步骤数
`512`(默认)|正整数

代理在从其经验中学习之前与环境交互的步骤数，指定为正整数。

的ExperienceHorizon值必须大于或等于MiniBatchSize价值。

`MiniBatchSize`- - - - - -Mini-batch大小
`128`(默认)|正整数

用于每个学习阶段的小批大小，指定为正整数。当代理使用循环神经网络时，MiniBatchSize作为训练轨迹长度。

的MiniBatchSize值必须小于或等于ExperienceHorizon价值。

`EntropyLossWeight`- - - - - -熵减肥
`0.01`(默认)|标量值之间`0`而且`1`

熵损失权重，指定为一个介于之间的标量值0而且1．较高的熵损失权重值通过对过于确定行动的行为施加惩罚来促进代理的探索。这样做可以帮助代理移出本地最优。

当在训练过程中计算梯度时，计算一个额外的梯度分量以使熵损失最小化。有关更多信息，请参见熵损失．

`NumEpoch`- - - - - -数量的时代
`1`(默认)|正整数

演员和评论家网络从当前经验集中学习的时代数，指定为正整数。

`AdvantageEstimateMethod`- - - - - -估算优势值的方法
`“gae”`(默认)|`“finite-horizon”`

估算优势值的方法，指定为下列之一:

“gae”-广义优势估计器
“finite-horizon”-有限视距估计

有关这些方法的更多信息，请参见近端策略优化代理．

`GAEFactor`- - - - - -广义优势估计器的平滑因子
`0.95`(默认)|标量值之间`0`而且`1`

用于广义优势估计器的平滑因子，指定为介于之间的标量值0而且1、包容。此选项仅适用于AdvantageEstimateMethod选择是“gae”

`ConjugateGradientDamping`- - - - - -共轭梯度阻尼因子
`1的军医`(默认)|负的标量

数值稳定性的共轭梯度阻尼因子，指定为非负标量。

`KLDivergenceLimit`- - - - - -KL散度的上限
`0.01`(默认)|积极的标量

旧策略和当前策略之间的Kullback-Leibler (KL)发散的上限，指定为正标量。

`NumIterationsConjugateGradient`- - - - - -共轭梯度的最大迭代次数
`10`(默认)|正整数

共轭梯度的最大迭代次数，指定为正整数。

`NumIterationsLineSearch`- - - - - -行搜索的迭代次数
`10`(默认)|正整数

行搜索的迭代次数，指定为正整数。

通常，默认值适用于大多数情况。

`ConjugateGradientResidualTolerance`- - - - - -共轭梯度残差因子
`1 e-8`(默认)|积极的标量

共轭梯度残余公差，指定为正标量。一旦共轭梯度算法的残差低于此公差，算法停止。

通常，默认值适用于大多数情况。

`NormalizedAdvantageMethod`- - - - - -优势函数的归一化方法
`“没有”`(默认)|`“当前`|`“移动”`

归一化优势函数值的方法，指定为以下之一:

“没有”-不要将优势值规范化
“当前”-利用当前小批量经验的均值和标准差归一化优势函数。
“移动”-使用近期经验的移动窗口的平均值和标准差将优势函数归一化。要指定窗口大小，请设置AdvantageNormalizingWindow选择。

在某些环境中，可以通过在训练过程中规范化优势函数来提高代理的性能。代理通过减去平均优势值和标准偏差缩放来规范化优势函数。

`AdvantageNormalizingWindow`- - - - - -优势函数归一化的窗口大小
`1 e6`(默认)|正整数

用于规范化优势函数值的窗口大小，指定为正整数。时使用此选项NormalizedAdvantageMethod选择是“移动”．

`CriticOptimizerOptions`- - - - - -评论家优化器选择
`rlOptimizerOptions`对象

批评家优化器选项，指定为rlOptimizerOptions对象。它允许您指定临界逼近器的训练参数，如学习率，梯度阈值，以及优化器算法及其参数。有关更多信息，请参见rlOptimizerOptions而且rlOptimizer．

`SampleTime`- - - - - -代理取样时间
`1`(默认)|积极的标量|`－1`

代理的采样时间，指定为正标量或－1．将此参数设置为－1允许基于事件的模拟。

在一个模型^®环境中,RL代理块，指定代理在其中执行SampleTime秒模拟时间。如果SampleTime是－1，该块从其父子系统继承采样时间。

在MATLAB^®在环境中，每当环境前进时，都会执行代理。在这种情况下,SampleTime是否返回输出经验中连续元素之间的时间间隔sim卡或火车．如果SampleTime是－1，返回的输出经验中连续元素之间的时间间隔反映了触发代理执行的事件的时间。

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

折扣因子应用于训练期间的未来奖励，指定为小于或等于1的正标量。

对象的功能

rlTRPOAgent 信任区域策略优化强化学习代理

例子

全部折叠

创建TRPO代理选项对象

打开生活的脚本

创建一个TRPO代理选项对象，指定折扣因子。

选择= rlTRPOAgentOptions (“DiscountFactor”, 0.9)

opt = rlTRPOAgentOptions with properties: ExperienceHorizon: 512 MiniBatchSize: 128 EntropyLossWeight: 0.0100 nummepoch: 3 advageestimatemethod: "gae" GAEFactor: 0.9500 ConjugateGradientDamping: 0.1000 KLDivergenceLimit: 0.0100 NumIterationsConjugateGradient: 10 NumIterationsLineSearch: 10 ConjugateGradientResidualTolerance: 1.0000e-08 normalizedadvagemethod: "none" advagenormalizingwindow: 1000000 CriticOptimizerOptions: [1x1 rl.option.]rlottimizeroptions] SampleTime: 1 DiscountFactor: 0.9000 InfoToSave: [1x1 struct]

可以使用点表示法修改选项。例如，将代理采样时间设置为0．1．

opt.SampleTime = 0.1;

版本历史

介绍了R2021b

全部展开

R2022a:仿真和部署:`UseDeterministicExploitation`将被删除

房地产UseDeterministicExploitation的rlTRPOAgentOptions对象将在未来的版本中删除。使用UseExplorationPolicy的属性rlTRPOAgent代替。

以前,你UseDeterministicExploitation如下。

强制代理总是选择具有最大可能性的动作，从而使用贪婪的确定性策略进行模拟和部署。
```
agent.AgentOptions.UseDeterministicExploitation = true;
```
允许代理通过抽样其概率分布进行模拟和策略部署来选择其行动，从而使用探索观察空间的随机策略。
```
agent.AgentOptions.UseDeterministicExploitation = false;
```

从R2022a开始，设置UseExplorationPolicy如下。

强制代理总是选择具有最大可能性的动作，从而使用贪婪的确定性策略进行模拟和部署。
```
代理。UseExplorationPolicy = false;
```
允许代理通过抽样其概率分布进行模拟和策略部署来选择其行动，从而使用探索观察空间的随机策略。
```
代理。UseExplorationPolicy = true;
```

类似于UseDeterministicExploitation，UseExplorationPolicy只影响模拟和部署;这并不影响训练。

另请参阅

主题

信任区域策略优化代理

rlTRPOAgentOptions

描述

创建

语法

描述

属性

ExperienceHorizon- - - - - -代理在学习之前与环境交互的步骤数512(默认)|正整数

MiniBatchSize- - - - - -Mini-batch大小128(默认)|正整数

EntropyLossWeight- - - - - -熵减肥0.01(默认)|标量值之间0而且1

NumEpoch- - - - - -数量的时代1(默认)|正整数

AdvantageEstimateMethod- - - - - -估算优势值的方法“gae”(默认)|“finite-horizon”

GAEFactor- - - - - -广义优势估计器的平滑因子0.95(默认)|标量值之间0而且1

ConjugateGradientDamping- - - - - -共轭梯度阻尼因子1的军医(默认)|负的标量

KLDivergenceLimit- - - - - -KL散度的上限0.01(默认)|积极的标量

NumIterationsConjugateGradient- - - - - -共轭梯度的最大迭代次数10(默认)|正整数

NumIterationsLineSearch- - - - - -行搜索的迭代次数10(默认)|正整数

ConjugateGradientResidualTolerance- - - - - -共轭梯度残差因子1 e-8(默认)|积极的标量

NormalizedAdvantageMethod- - - - - -优势函数的归一化方法“没有”(默认)|“当前|“移动”

AdvantageNormalizingWindow- - - - - -优势函数归一化的窗口大小1 e6(默认)|正整数

CriticOptimizerOptions- - - - - -评论家优化器选择rlOptimizerOptions对象

SampleTime- - - - - -代理取样时间1(默认)|积极的标量|－1

DiscountFactor- - - - - -折现系数0.99(默认)|小于等于1的正标量