rlTRPOAgentOptions
TRPO代理的选项
描述
使用一个rlTRPOAgentOptions
对象指定信任区域策略优化(TRPO)代理的选项。要创建TRPO代理,请使用rlTRPOAgent
.
有关TRPO代理的更多信息,请参见信任区域策略优化代理.
有关不同类型的强化学习代理的更多信息,请参见强化学习代理.
创建
属性
ExperienceHorizon
- - - - - -代理在学习之前与环境交互的步骤数
512
(默认)|正整数
代理在从其经验中学习之前与环境交互的步骤数,指定为正整数。
的ExperienceHorizon
值必须大于或等于MiniBatchSize
价值。
MiniBatchSize
- - - - - -Mini-batch大小
128
(默认)|正整数
用于每个学习阶段的小批大小,指定为正整数。当代理使用循环神经网络时,MiniBatchSize
作为训练轨迹长度。
的MiniBatchSize
值必须小于或等于ExperienceHorizon
价值。
EntropyLossWeight
- - - - - -熵减肥
0.01
(默认)|标量值之间0
而且1
熵损失权重,指定为一个介于之间的标量值0
而且1
.较高的熵损失权重值通过对过于确定行动的行为施加惩罚来促进代理的探索。这样做可以帮助代理移出本地最优。
当在训练过程中计算梯度时,计算一个额外的梯度分量以使熵损失最小化。有关更多信息,请参见熵损失.
NumEpoch
- - - - - -数量的时代
1
(默认)|正整数
演员和评论家网络从当前经验集中学习的时代数,指定为正整数。
AdvantageEstimateMethod
- - - - - -估算优势值的方法
“gae”
(默认)|“finite-horizon”
GAEFactor
- - - - - -广义优势估计器的平滑因子
0.95
(默认)|标量值之间0
而且1
用于广义优势估计器的平滑因子,指定为介于之间的标量值0
而且1
、包容。此选项仅适用于AdvantageEstimateMethod
选择是“gae”
ConjugateGradientDamping
- - - - - -共轭梯度阻尼因子
1的军医
(默认)|负的标量
数值稳定性的共轭梯度阻尼因子,指定为非负标量。
KLDivergenceLimit
- - - - - -KL散度的上限
0.01
(默认)|积极的标量
旧策略和当前策略之间的Kullback-Leibler (KL)发散的上限,指定为正标量。
NumIterationsConjugateGradient
- - - - - -共轭梯度的最大迭代次数
10
(默认)|正整数
共轭梯度的最大迭代次数,指定为正整数。
NumIterationsLineSearch
- - - - - -行搜索的迭代次数
10
(默认)|正整数
行搜索的迭代次数,指定为正整数。
通常,默认值适用于大多数情况。
ConjugateGradientResidualTolerance
- - - - - -共轭梯度残差因子
1 e-8
(默认)|积极的标量
共轭梯度残余公差,指定为正标量。一旦共轭梯度算法的残差低于此公差,算法停止。
通常,默认值适用于大多数情况。
NormalizedAdvantageMethod
- - - - - -优势函数的归一化方法
“没有”
(默认)|“当前
|“移动”
归一化优势函数值的方法,指定为以下之一:
“没有”
-不要将优势值规范化“当前”
-利用当前小批量经验的均值和标准差归一化优势函数。“移动”
-使用近期经验的移动窗口的平均值和标准差将优势函数归一化。要指定窗口大小,请设置AdvantageNormalizingWindow
选择。
在某些环境中,可以通过在训练过程中规范化优势函数来提高代理的性能。代理通过减去平均优势值和标准偏差缩放来规范化优势函数。
AdvantageNormalizingWindow
- - - - - -优势函数归一化的窗口大小
1 e6
(默认)|正整数
用于规范化优势函数值的窗口大小,指定为正整数。时使用此选项NormalizedAdvantageMethod
选择是“移动”
.
CriticOptimizerOptions
- - - - - -评论家优化器选择
rlOptimizerOptions
对象
批评家优化器选项,指定为rlOptimizerOptions
对象。它允许您指定临界逼近器的训练参数,如学习率,梯度阈值,以及优化器算法及其参数。有关更多信息,请参见rlOptimizerOptions
而且rlOptimizer
.
DiscountFactor
- - - - - -折现系数
0.99
(默认)|小于等于1的正标量
折扣因子应用于训练期间的未来奖励,指定为小于或等于1的正标量。
对象的功能
rlTRPOAgent |
信任区域策略优化强化学习代理 |
例子
创建TRPO代理选项对象
创建一个TRPO代理选项对象,指定折扣因子。
选择= rlTRPOAgentOptions (“DiscountFactor”, 0.9)
opt = rlTRPOAgentOptions with properties: ExperienceHorizon: 512 MiniBatchSize: 128 EntropyLossWeight: 0.0100 nummepoch: 3 advageestimatemethod: "gae" GAEFactor: 0.9500 ConjugateGradientDamping: 0.1000 KLDivergenceLimit: 0.0100 NumIterationsConjugateGradient: 10 NumIterationsLineSearch: 10 ConjugateGradientResidualTolerance: 1.0000e-08 normalizedadvagemethod: "none" advagenormalizingwindow: 1000000 CriticOptimizerOptions: [1x1 rl.option.]rlottimizeroptions] SampleTime: 1 DiscountFactor: 0.9000 InfoToSave: [1x1 struct]
可以使用点表示法修改选项。例如,将代理采样时间设置为0.1
.
opt.SampleTime = 0.1;
版本历史
介绍了R2021bR2022a:仿真和部署:UseDeterministicExploitation
将被删除
房地产UseDeterministicExploitation
的rlTRPOAgentOptions
对象将在未来的版本中删除。使用UseExplorationPolicy
的属性rlTRPOAgent
代替。
以前,你UseDeterministicExploitation
如下。
强制代理总是选择具有最大可能性的动作,从而使用贪婪的确定性策略进行模拟和部署。
agent.AgentOptions.UseDeterministicExploitation = true;
允许代理通过抽样其概率分布进行模拟和策略部署来选择其行动,从而使用探索观察空间的随机策略。
agent.AgentOptions.UseDeterministicExploitation = false;
从R2022a开始,设置UseExplorationPolicy
如下。
强制代理总是选择具有最大可能性的动作,从而使用贪婪的确定性策略进行模拟和部署。
代理。UseExplorationPolicy = false;
允许代理通过抽样其概率分布进行模拟和策略部署来选择其行动,从而使用探索观察空间的随机策略。
代理。UseExplorationPolicy = true;
类似于UseDeterministicExploitation
,UseExplorationPolicy
只影响模拟和部署;这并不影响训练。
另请参阅
主题
MATLAB命令
你点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。
您也可以从以下列表中选择网站:
如何获得最佳的网站性能
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。