主要内容

rlMBPOAgentOptions

选择MBPO代理

自从R2022a

    描述

    使用一个rlMBPOAgentOptions基于模型的政策优化对象指定选项(MBPO)代理。创建一个MBPO代理,使用rlMBPOAgent

    有关更多信息,请参见基于模型的政策优化(MBPO)代理

    创建

    描述

    例子

    选择= rlMBPOAgentOptions创建一个选项对象作为参数在创建一个MBPO代理使用所有缺省选项。您可以修改对象属性使用点符号。

    选择= rlMBPOAgentOptions (名称=值)设置选项属性使用名称-值对参数。例如,rlMBPOAgentOptions (DiscountFactor = 0.95)创建一个选项设定的折现系数0.95。您可以指定多个参数名称-值对。

    属性

    全部展开

    数字时代的训练环境模型,指定为一个正整数。

    使用的mini-batches数量在每个环境模型训练时期,作为一个积极的标量或指定“所有”。当你指定NumMiniBatches“所有”,代理选择mini-batches这样所有样本的数量基本代理经验缓冲区用于训练模型。

    大小的随机经验mini-batch培训环境模型,指定为一个正整数。在每个模型训练集,代理经验的随机样本经验缓冲区时计算更新环境梯度模型属性。大型mini-batches减少方差计算梯度但增加计算工作量。

    生成的经验缓冲区大小,指定为一个正整数。当代理产生的经验,他们被添加到模型的经验缓冲区。

    比实际经验在mini-batch代理培训,指定为负的标量小于或等于1。

    转换函数优化选项,指定为以下之一:

    • rlOptimizerOptions对象——当你的神经网络环境有一个转换函数或如果你想使用相同的选项为多个转换函数,对象指定一个选项。

    • 的数组rlOptimizerOptions对象——当你的代理有多个神经网络环境过渡函数和你想要使用不同的转换功能,优化器选项指定一个选项对象数组长度等于过渡函数的数量。

    使用这些对象,您可以指定训练参数的过渡深层神经网络近似者以及优化算法和参数。

    如果你有以前训练过渡模型和不希望MBPO代理修改这些模型在训练,集TransitionOptimizerOptions.LearnRate0

    奖励函数优化选项,指定为一个rlOptimizerOptions对象。使用这个对象,您可以指定奖励深层神经网络训练参数的估计值以及优化算法及其参数。

    如果你指定一个真实回报函数使用一个自定义函数,MBPO代理忽略这些选项。

    如果你有以前训练奖励模型和不希望MBPO代理修改模型在训练,集RewardOptimizerOptions.LearnRate0

    完成函数优化选项,指定为一个rlOptimizerOptions对象。使用这个对象,您可以指定训练参数进行深层神经网络近似者以及优化算法及其参数。

    如果你指定一个真实完成函数使用一个自定义函数,MBPO代理忽略这些选项。

    如果你有以前训练完成模型和不希望MBPO代理修改模型在训练,集IsDoneOptimizerOptions.LearnRate0

    模型推出期权的数量和长度控制轨迹生成的经验,作为一个指定rlModelRolloutOptions与以下领域的对象。在每个时代的开始,代理生成推出轨迹并将它们添加到模型经验缓冲区。修改启动选项,使用点符号。

    轨迹生成样本数量,指定为一个正整数。

    最初的轨迹,指定为一个正整数。

    选择地平线长度增加,指定为以下值之一。

    • “没有”地平线——不增加长度。

    • “分段”由一个每次地平线——增加长度N模型的训练时期,N等于HorizonUpdateFrequency

    数量的时代之后,地平线上增加,指定为一个正整数。当RolloutHorizonSchedule“没有”这个选项将被忽略。

    最大层长度,指定为一个正整数大于或等于RolloutHorizon。当RolloutHorizonSchedule“没有”这个选项将被忽略。

    培训的时代开始生成轨迹,指定为一个正整数。

    探索模型选项生成的经验使用内部环境模型,指定为以下之一:

    • []-使用探索策略的基础代理。训练时必须使用这个选项囊基地代理。

    • EpsilonGreedyExploration对象,您可以使用这个选项,当训练DQN基地代理。

    • GaussianActionNoise对象——你可以使用这个选项当训练DDPG或代理TD3基地。

    探索模型只使用最初的噪音选项值和培训期间不更新的值。

    指定NoiseOptions,创建一个默认的模型对象。然后,指定任何默认使用点符号模型属性。

    • 指定ε贪婪勘探选项。

      选择= rlMBPOAgentOptions;opt.ModelRolloutOptions。NoiseOptions =rl.option.EpsilonGreedyExploration;opt.ModelRolloutOptions.NoiseOptions。EpsilonMin = 0.03;
    • 指定高斯噪音行动选项。

      选择= rlMBPOAgentOptions;opt.ModelRolloutOptions。NoiseOptions =rl.option.GaussianActionNoise;opt.ModelRolloutOptions.NoiseOptions。StandardDeviation = sqrt (0.15);

    关于噪声模型的更多信息,请参阅噪声模型

    对象的功能

    rlMBPOAgent 基于模型的政策优化(MBPO)强化学习代理

    例子

    全部折叠

    创建一个MBPO代理的选择对象,指定的比例实际经验用于培训代理30%。

    选择= rlMBPOAgentOptions (RealSampleRatio = 0.3)
    选择= rlMBPOAgentOptions属性:NumEpochForTrainingModel: 1 NumMiniBatches: 10 MiniBatchSize: 128 TransitionOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] RewardOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] IsDoneOptimizerOptions: [1 x1 rl.option。rlOptimizerOptions] ModelExperienceBufferLength: 100000 ModelRolloutOptions: [1x1 rl.option.rlModelRolloutOptions] RealSampleRatio: 0.3000 InfoToSave: [1x1 struct]

    您可以修改选项使用点符号。例如,将mini-batch大小设置为64。

    opt.MiniBatchSize = 64;

    算法

    全部展开

    版本历史

    介绍了R2022a

    Baidu
    map