主要内容

rlSARSAAgentOptions

SARSA代理选项

描述

使用一个rlSARSAAgentOptions对象指定创建SARSA代理的选项。要创建SARSA代理,请使用rlSARSAAgent

有关SARSA代理的更多信息,请参见撒尔沙代理

有关不同类型的强化学习剂的更多信息,请参见强化学习代理

创建

描述

选择= rlSARSAAgentOptions创建一个rlSARSAAgentOptions对象,用于在使用所有默认设置创建SARSA代理时作为参数使用。可以使用点表示法修改对象属性。

例子

选择= rlSARSAAgentOptions (名称,值)设置选项属性使用名称-值对。例如,rlSARSAAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95。可以指定多个名值对。将每个属性名用引号括起来。

属性

全部展开

epsilon-greedy探索选项,指定为EpsilonGreedyExploration对象,具有以下属性。

财产 描述 默认值
ε 概率阈值,要么随机选择一个动作,要么选择使状态-动作值函数最大化的动作。的较大值ε意味着代理以更高的速率随机探索动作空间。 1
EpsilonMin 最小值的ε 0.01
EpsilonDecay 衰减率 0.0050

在每个训练时间步的末尾,如果ε大于EpsilonMin,然后使用以下公式进行更新。

ε=ε* (1-EpsilonDecay)

如果你的代理在局部最优点上收敛得太快,你可以通过增加来促进代理探索ε

要指定探索选项,请在创建rlSARSAAgentOptions对象选择。例如,将epsilon的值设置为0.9

opt.EpsilonGreedyExploration.Epsilon = 0.9;

批评家优化器选项,指定为rlOptimizerOptions对象。它允许您指定临界逼近器的训练参数,如学习率、梯度阈值,以及优化器算法及其参数。有关更多信息,请参见rlOptimizerOptionsrlOptimizer

agent的采样时间,指定为正标量或为1。设置此参数为1允许基于事件的模拟。

在一个模型®环境中,RL代理块,其中代理被指定执行每SampleTime秒模拟时间。如果SampleTime1,块从其父子系统继承采样时间。

在MATLAB®Environment,每次环境前进时都会执行代理。在这种情况下,SampleTime输出经验中连续元素之间的时间间隔是由sim卡火车。如果SampleTime1,返回的输出经验中连续元素之间的时间间隔反映了触发代理执行的事件的时间。

折扣因子应用于训练期间的未来奖励,指定为小于或等于1的正标量。

对象的功能

rlSARSAAgent SARSA强化学习剂

例子

全部折叠

这个例子展示了如何创建SARSA代理选项对象。

创建一个rlSARSAAgentOptions对象,指定代理采样时间。

选择= rlSARSAAgentOptions (“SampleTime”, 0.5)
opt = rlSARSAAgentOptions带有属性:EpsilonGreedyExploration: [1x1 rl.option. properties]EpsilonGreedyExploration] CriticOptimizerOptions: [1x1 rl.option。rlOptimizerOptions] SampleTime: 0.5000 DiscountFactor: 0.9900 InfoToSave: [1x1 struct]

您可以使用点表示法修改选项。例如,将代理折扣因子设置为0.95

opt.DiscountFactor = 0.95;

版本历史

介绍了R2019a

另请参阅

Baidu
map