rlMBPOAgentOptions

选择MBPO代理

自从R2022a

扩展所有的页面

描述

使用一个rlMBPOAgentOptions基于模型的政策优化对象指定选项(MBPO)代理。创建一个MBPO代理,使用rlMBPOAgent。

有关更多信息,请参见基于模型的政策优化(MBPO)代理。

创建

语法

选择= rlMBPOAgentOptions

选择= rlMBPOAgentOptions (Name =值)

描述

例子

选择= rlMBPOAgentOptions创建一个选项对象作为参数在创建一个MBPO代理使用所有缺省选项。您可以修改对象属性使用点符号。

选择= rlMBPOAgentOptions (名称=值)设置选项属性使用名称-值对参数。例如,rlMBPOAgentOptions (DiscountFactor = 0.95)创建一个选项设定的折现系数0.95。您可以指定多个参数名称-值对。

属性

全部展开

`NumEpochForTrainingModel`- - - - - -数量的时代
`5`(默认)|正整数

数字时代的训练环境模型,指定为一个正整数。

`NumMiniBatches`- - - - - -mini-batches数量
`10`(默认)|正整数|`“所有”`

使用的mini-batches数量在每个环境模型训练时期,作为一个积极的标量或指定“所有”。当你指定NumMiniBatches来“所有”,代理选择mini-batches这样所有样本的数量基本代理经验缓冲区用于训练模型。

`MiniBatchSize`- - - - - -大小的随机mini-batch经验
`128年`(默认)|正整数

大小的随机经验mini-batch培训环境模型,指定为一个正整数。在每个模型训练集,代理经验的随机样本经验缓冲区时计算更新环境梯度模型属性。大型mini-batches减少方差计算梯度但增加计算工作量。

`ModelExperienceBufferLength`- - - - - -生成的经验缓冲区大小
`100000年`(默认)|正整数

生成的经验缓冲区大小,指定为一个正整数。当代理产生的经验,他们被添加到模型的经验缓冲区。

`RealSampleRatio`- - - - - -mini-batch比实际经验
`0.2`(默认)|负的标量小于或等于1

比实际经验在mini-batch代理培训,指定为负的标量小于或等于1。

`TransitionOptimizerOptions`- - - - - -转换函数优化器选择
`rlOptimizerOptions`对象|的数组`rlOptimizerOptions`对象

转换函数优化选项,指定为以下之一:

rlOptimizerOptions对象——当你的神经网络环境有一个转换函数或如果你想使用相同的选项为多个转换函数,对象指定一个选项。
的数组rlOptimizerOptions对象——当你的代理有多个神经网络环境过渡函数和你想要使用不同的转换功能,优化器选项指定一个选项对象数组长度等于过渡函数的数量。

使用这些对象,您可以指定训练参数的过渡深层神经网络近似者以及优化算法和参数。

如果你有以前训练过渡模型和不希望MBPO代理修改这些模型在训练,集TransitionOptimizerOptions.LearnRate来0。

`RewardOptimizerOptions`- - - - - -奖励函数优化器选择
`rlOptimizerOptions`对象

奖励函数优化选项,指定为一个rlOptimizerOptions对象。使用这个对象,您可以指定奖励深层神经网络训练参数的估计值以及优化算法及其参数。

如果你指定一个真实回报函数使用一个自定义函数,MBPO代理忽略这些选项。

如果你有以前训练奖励模型和不希望MBPO代理修改模型在训练,集RewardOptimizerOptions.LearnRate来0。

`IsDoneOptimizerOptions`- - - - - -完成功能优化器选择
`rlOptimizerOptions`对象

完成函数优化选项,指定为一个rlOptimizerOptions对象。使用这个对象,您可以指定训练参数进行深层神经网络近似者以及优化算法及其参数。

如果你指定一个真实完成函数使用一个自定义函数,MBPO代理忽略这些选项。

如果你有以前训练完成模型和不希望MBPO代理修改模型在训练,集IsDoneOptimizerOptions.LearnRate来0。

`ModelRolloutOptions`- - - - - -模型推出期权
`rlModelRolloutOptions`对象

模型推出期权的数量和长度控制轨迹生成的经验,作为一个指定rlModelRolloutOptions与以下领域的对象。在每个时代的开始,代理生成推出轨迹并将它们添加到模型经验缓冲区。修改启动选项,使用点符号。

`NumRollout`——数量的轨迹
`2000年`(默认)|正整数

轨迹生成样本数量,指定为一个正整数。

`地平线`——初始轨迹地平线
`1`(默认)|正整数

最初的轨迹,指定为一个正整数。

`HorizonUpdateSchedule`——选择增加长度
`“没有”`(默认)|`“分段”`

选择地平线长度增加,指定为以下值之一。

“没有”地平线——不增加长度。
“分段”由一个每次地平线——增加长度N模型的训练时期,N等于HorizonUpdateFrequency。

`RolloutHorizonUpdateFrequency`——时代之后,地平线上的增加
`One hundred.`(默认)|正整数

数量的时代之后,地平线上增加,指定为一个正整数。当RolloutHorizonSchedule是“没有”这个选项将被忽略。

`HorizonMax`——最大层长度
`20.`(默认)|正整数

最大层长度,指定为一个正整数大于或等于RolloutHorizon。当RolloutHorizonSchedule是“没有”这个选项将被忽略。

`HorizonUpdateStartEpoch`- - -培训的时代开始生成轨迹
`1`(默认)|正整数

培训的时代开始生成轨迹,指定为一个正整数。

`NoiseOptions`探索模式选项
`[]`(默认)|`EpsilonGreedyExploration`对象|`GaussianActionNoise`对象

探索模型选项生成的经验使用内部环境模型,指定为以下之一:

[]-使用探索策略的基础代理。训练时必须使用这个选项囊基地代理。
EpsilonGreedyExploration对象,您可以使用这个选项,当训练DQN基地代理。
GaussianActionNoise对象——你可以使用这个选项当训练DDPG或代理TD3基地。

探索模型只使用最初的噪音选项值和培训期间不更新的值。

指定NoiseOptions,创建一个默认的模型对象。然后,指定任何默认使用点符号模型属性。

指定ε贪婪勘探选项。

选择= rlMBPOAgentOptions;opt.ModelRolloutOptions。NoiseOptions =…rl.option.EpsilonGreedyExploration;opt.ModelRolloutOptions.NoiseOptions。EpsilonMin = 0.03;

指定高斯噪音行动选项。

选择= rlMBPOAgentOptions;opt.ModelRolloutOptions。NoiseOptions =…rl.option.GaussianActionNoise;opt.ModelRolloutOptions.NoiseOptions。StandardDeviation = sqrt (0.15);

关于噪声模型的更多信息,请参阅噪声模型。

对象的功能

rlMBPOAgent 基于模型的政策优化(MBPO)强化学习代理

例子

全部折叠

创建MBPO代理的选择对象

打开生活的脚本

创建一个MBPO代理的选择对象,指定的比例实际经验用于培训代理30%。

选择= rlMBPOAgentOptions (RealSampleRatio = 0.3)

选择= rlMBPOAgentOptions属性:NumEpochForTrainingModel: 1 NumMiniBatches: 10 MiniBatchSize: 128 TransitionOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] RewardOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] IsDoneOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] ModelExperienceBufferLength: 100000 ModelRolloutOptions: [1x1 rl.option.rlModelRolloutOptions] RealSampleRatio: 0.3000 InfoToSave: [1x1 struct]

您可以修改选项使用点符号。例如,将mini-batch大小设置为64。

opt.MiniBatchSize = 64;

算法

全部展开

噪声模型

高斯噪音行动

一个GaussianActionNoise对象有以下数值属性。当生成的经验,MBPO代理不更新他们的探索模型参数。

财产	描述	默认值
`的意思是`	噪声模型的意思	`0`
`StandardDeviation`	噪声模型标准差	`sqrt (0.2)`
`StandardDeviationDecayRate`	衰变率的标准差 (不用于生成样本)	`0`
`StandardDeviationMin`	必须小于最小标准差`StandardDeviation` (不用于生成样本)	`0.1`
`LowerLimit`	噪声样本下限	`负`
`UpperLimit`	噪声样本上限	`正`

在每个时间步k的高斯噪声v是采样,如以下代码所示。

w =意味着+兰德(ActionSize)。* StandardDeviation (k);v (k + 1) =最小(最大(w, LowerLimit) UpperLimit);

ε贪婪的探索

一个EpsilonGreedyExploration对象有以下数值属性。当生成的经验,MBPO代理不更新他们的探索模型参数。

财产描述默认值

ε 概率阈值随机选择一个行动或选择最大化的行动政府行动的价值功能。更大的价值ε意味着代理随机探索行动空间以更高的速度。 1

财产	描述	默认值
`ε`	概率阈值随机选择一个行动或选择最大化的行动政府行动的价值功能。更大的价值`ε`意味着代理随机探索行动空间以更高的速度。	`1`
`EpsilonMin`	最小值的`ε` (不用于生成样本)	`0.01`
`EpsilonDecay`	衰减率 (不用于生成样本)	`0.005`

EpsilonMin

最小值的ε

(不用于生成样本)

0.01

EpsilonDecay

衰减率

(不用于生成样本)

0.005

版本历史

介绍了R2022a

另请参阅

对象

rlMBPOAgent|rlNeuralNetworkEnvironment|rlAgentInitializationOptions

rlMBPOAgentOptions

描述

创建

语法

描述

属性

NumEpochForTrainingModel- - - - - -数量的时代5(默认)|正整数

NumMiniBatches- - - - - -mini-batches数量10(默认)|正整数|“所有”

MiniBatchSize- - - - - -大小的随机mini-batch经验128年(默认)|正整数

ModelExperienceBufferLength- - - - - -生成的经验缓冲区大小100000年(默认)|正整数

RealSampleRatio- - - - - -mini-batch比实际经验0.2(默认)|负的标量小于或等于1

TransitionOptimizerOptions- - - - - -转换函数优化器选择rlOptimizerOptions对象|的数组rlOptimizerOptions对象

RewardOptimizerOptions- - - - - -奖励函数优化器选择rlOptimizerOptions对象

IsDoneOptimizerOptions- - - - - -完成功能优化器选择rlOptimizerOptions对象

ModelRolloutOptions- - - - - -模型推出期权rlModelRolloutOptions对象

NumRollout——数量的轨迹2000年(默认)|正整数

地平线——初始轨迹地平线1(默认)|正整数

HorizonUpdateSchedule——选择增加长度“没有”(默认)|“分段”

RolloutHorizonUpdateFrequency——时代之后,地平线上的增加One hundred.(默认)|正整数

HorizonMax——最大层长度20.(默认)|正整数

HorizonUpdateStartEpoch- - -培训的时代开始生成轨迹1(默认)|正整数

NoiseOptions探索模式选项[](默认)|EpsilonGreedyExploration对象|GaussianActionNoise对象