rlMBPOAgentOptions
描述
使用一个rlMBPOAgentOptions
基于模型的政策优化对象指定选项(MBPO)代理。创建一个MBPO代理,使用rlMBPOAgent
。
有关更多信息,请参见基于模型的政策优化(MBPO)代理。
创建
属性
NumEpochForTrainingModel
- - - - - -数量的时代
5
(默认)|正整数
数字时代的训练环境模型,指定为一个正整数。
NumMiniBatches
- - - - - -mini-batches数量
10
(默认)|正整数|“所有”
使用的mini-batches数量在每个环境模型训练时期,作为一个积极的标量或指定“所有”
。当你指定NumMiniBatches
来“所有”
,代理选择mini-batches这样所有样本的数量基本代理经验缓冲区用于训练模型。
MiniBatchSize
- - - - - -大小的随机mini-batch经验
128年
(默认)|正整数
大小的随机经验mini-batch培训环境模型,指定为一个正整数。在每个模型训练集,代理经验的随机样本经验缓冲区时计算更新环境梯度模型属性。大型mini-batches减少方差计算梯度但增加计算工作量。
ModelExperienceBufferLength
- - - - - -生成的经验缓冲区大小
100000年
(默认)|正整数
生成的经验缓冲区大小,指定为一个正整数。当代理产生的经验,他们被添加到模型的经验缓冲区。
RealSampleRatio
- - - - - -mini-batch比实际经验
0.2
(默认)|负的标量小于或等于1
比实际经验在mini-batch代理培训,指定为负的标量小于或等于1。
TransitionOptimizerOptions
- - - - - -转换函数优化器选择
rlOptimizerOptions
对象|的数组rlOptimizerOptions
对象
转换函数优化选项,指定为以下之一:
rlOptimizerOptions
对象——当你的神经网络环境有一个转换函数或如果你想使用相同的选项为多个转换函数,对象指定一个选项。的数组
rlOptimizerOptions
对象——当你的代理有多个神经网络环境过渡函数和你想要使用不同的转换功能,优化器选项指定一个选项对象数组长度等于过渡函数的数量。
使用这些对象,您可以指定训练参数的过渡深层神经网络近似者以及优化算法和参数。
如果你有以前训练过渡模型和不希望MBPO代理修改这些模型在训练,集TransitionOptimizerOptions.LearnRate
来0
。
RewardOptimizerOptions
- - - - - -奖励函数优化器选择
rlOptimizerOptions
对象
奖励函数优化选项,指定为一个rlOptimizerOptions
对象。使用这个对象,您可以指定奖励深层神经网络训练参数的估计值以及优化算法及其参数。
如果你指定一个真实回报函数使用一个自定义函数,MBPO代理忽略这些选项。
如果你有以前训练奖励模型和不希望MBPO代理修改模型在训练,集RewardOptimizerOptions.LearnRate
来0
。
IsDoneOptimizerOptions
- - - - - -完成功能优化器选择
rlOptimizerOptions
对象
完成函数优化选项,指定为一个rlOptimizerOptions
对象。使用这个对象,您可以指定训练参数进行深层神经网络近似者以及优化算法及其参数。
如果你指定一个真实完成函数使用一个自定义函数,MBPO代理忽略这些选项。
如果你有以前训练完成模型和不希望MBPO代理修改模型在训练,集IsDoneOptimizerOptions.LearnRate
来0
。
ModelRolloutOptions
- - - - - -模型推出期权
rlModelRolloutOptions
对象
模型推出期权的数量和长度控制轨迹生成的经验,作为一个指定rlModelRolloutOptions
与以下领域的对象。在每个时代的开始,代理生成推出轨迹并将它们添加到模型经验缓冲区。修改启动选项,使用点符号。
NumRollout
——数量的轨迹
2000年
(默认)|正整数
轨迹生成样本数量,指定为一个正整数。
地平线
——初始轨迹地平线
1
(默认)|正整数
最初的轨迹,指定为一个正整数。
HorizonUpdateSchedule
——选择增加长度
“没有”
(默认)|“分段”
选择地平线长度增加,指定为以下值之一。
“没有”
地平线——不增加长度。“分段”
由一个每次地平线——增加长度N模型的训练时期,N等于HorizonUpdateFrequency
。
RolloutHorizonUpdateFrequency
——时代之后,地平线上的增加
One hundred.
(默认)|正整数
数量的时代之后,地平线上增加,指定为一个正整数。当RolloutHorizonSchedule
是“没有”
这个选项将被忽略。
HorizonMax
——最大层长度
20.
(默认)|正整数
最大层长度,指定为一个正整数大于或等于RolloutHorizon
。当RolloutHorizonSchedule
是“没有”
这个选项将被忽略。
HorizonUpdateStartEpoch
- - -培训的时代开始生成轨迹
1
(默认)|正整数
培训的时代开始生成轨迹,指定为一个正整数。
NoiseOptions
探索模式选项
[]
(默认)|EpsilonGreedyExploration
对象|GaussianActionNoise
对象
探索模型选项生成的经验使用内部环境模型,指定为以下之一:
[]
-使用探索策略的基础代理。训练时必须使用这个选项囊基地代理。EpsilonGreedyExploration
对象,您可以使用这个选项,当训练DQN基地代理。GaussianActionNoise
对象——你可以使用这个选项当训练DDPG或代理TD3基地。
探索模型只使用最初的噪音选项值和培训期间不更新的值。
指定NoiseOptions
,创建一个默认的模型对象。然后,指定任何默认使用点符号模型属性。
指定ε贪婪勘探选项。
选择= rlMBPOAgentOptions;opt.ModelRolloutOptions。NoiseOptions =…rl.option.EpsilonGreedyExploration;opt.ModelRolloutOptions.NoiseOptions。EpsilonMin = 0.03;
指定高斯噪音行动选项。
选择= rlMBPOAgentOptions;opt.ModelRolloutOptions。NoiseOptions =…rl.option.GaussianActionNoise;opt.ModelRolloutOptions.NoiseOptions。StandardDeviation = sqrt (0.15);
关于噪声模型的更多信息,请参阅噪声模型。
对象的功能
rlMBPOAgent |
基于模型的政策优化(MBPO)强化学习代理 |
例子
创建MBPO代理的选择对象
创建一个MBPO代理的选择对象,指定的比例实际经验用于培训代理30%。
选择= rlMBPOAgentOptions (RealSampleRatio = 0.3)
选择= rlMBPOAgentOptions属性:NumEpochForTrainingModel: 1 NumMiniBatches: 10 MiniBatchSize: 128 TransitionOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] RewardOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] IsDoneOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] ModelExperienceBufferLength: 100000 ModelRolloutOptions: [1x1 rl.option.rlModelRolloutOptions] RealSampleRatio: 0.3000 InfoToSave: [1x1 struct]
您可以修改选项使用点符号。例如,将mini-batch大小设置为64。
opt.MiniBatchSize = 64;
算法
噪声模型
一个GaussianActionNoise
对象有以下数值属性。当生成的经验,MBPO代理不更新他们的探索模型参数。
财产 | 描述 | 默认值 |
---|---|---|
的意思是 |
噪声模型的意思 | 0 |
StandardDeviation |
噪声模型标准差 | sqrt (0.2) |
StandardDeviationDecayRate |
衰变率的标准差 (不用于生成样本) |
0 |
StandardDeviationMin |
必须小于最小标准差 (不用于生成样本) |
0.1 |
LowerLimit |
噪声样本下限 |
负 |
UpperLimit |
噪声样本上限 |
正 |
在每个时间步k
的高斯噪声v
是采样,如以下代码所示。
w =意味着+兰德(ActionSize)。* StandardDeviation (k);v (k + 1) =最小(最大(w, LowerLimit) UpperLimit);
一个EpsilonGreedyExploration
对象有以下数值属性。当生成的经验,MBPO代理不更新他们的探索模型参数。
财产 | 描述 | 默认值 |
---|---|---|
ε |
概率阈值随机选择一个行动或选择最大化的行动政府行动的价值功能。更大的价值ε 意味着代理随机探索行动空间以更高的速度。 |
1 |
EpsilonMin |
最小值的 (不用于生成样本) |
0.01 |
EpsilonDecay |
衰减率 (不用于生成样本) |
0.005 |
版本历史
介绍了R2022a
Abrir比如
这种版本modificada德埃斯特比如。害怕Desea abrir埃斯特比如con sus modificaciones吗?
第一de MATLAB
Ha事实clic en联合国围绕此时一个埃斯特第一de MATLAB:
Ejecute el第一introduciendolo en la ventana de第一de MATLAB。洛杉矶navegadores网络没有admiten第一de MATLAB。
你也可以从下面的列表中选择一个网站:
表现最好的网站怎么走吗
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。