rlRepresentationOptions

(不推荐)为强化学习代理表示设置的选项(批评者和参与者)

rlRepresentationOptions不推荐。使用一个rlOptimizerOptions而不是代理选项对象中的。有关更多信息，请参见rlRepresentationOptions不建议配置．

描述

使用一个rlRepresentationOptions对象来指定批评家的选项集(rlValueRepresentation，rlQValueRepresentation)和演员(rlDeterministicActorRepresentation，rlStochasticActorRepresentation）.

创建

语法

repOpts = rlRepresentationOptions

repOpts = rlRepresentationOptions(名称，值)

描述

例子

repOpts= rlRepresentationOptions创建默认选项集，以在创建强化学习参与者或批评者时用作最后一个参数。可以使用点表示法修改对象属性。

例子

repOpts= rlRepresentationOptions (名称,值）属性创建选项集属性使用一个或多个名称-值对参数。

属性

全部展开

`LearnRate`- - - - - -表示的学习率
`0.01`(默认)|积极的标量

表示的学习率，指定为正标量。如果学习率太低，那么训练就需要很长时间。如果学习率太高，那么训练可能会达到次优结果或发散。

例子:“LearnRate”,0.025

`优化器`- - - - - -表示优化器
`“亚当”`(默认)|`“个”`|`“rmsprop”`

用于训练表示的网络的优化器，指定为以下值之一。

“亚当”-使用亚当优化器。方法可以指定梯度和梯度移动平均数的衰减率和平方梯度移动平均数GradientDecayFactor而且SquaredGradientDecayFactor的字段OptimizerParameters选择。
“个”-使用随机梯度下降动量(SGDM)优化器。方法可以指定动量值动力的字段OptimizerParameters选择。
“rmsprop”-使用RMSProp优化器。方法可以指定平方梯度移动平均的衰减率SquaredGradientDecayFactor的字段OptimizerParameters选择。

有关这些优化器的更多信息，请参见随机梯度下降的算法部分trainingOptions在深度学习工具箱™中。

例子:“优化”、“个”

`OptimizerParameters`- - - - - -优化器的适用参数
`OptimizerParameters`对象

优化器的适用参数，指定为OptimizerParameters对象，使用以下参数。

参数	描述
`动力`	上一步的贡献，指定为从0到1的标量。值为0表示上一步没有贡献。1表示贡献最大。该参数仅在以下情况下有效`优化器`是`“个”`．在这种情况下，默认值是0.9。这个默认值对于大多数问题都很有效。
`ε`	分母偏移量，指定为正标量。优化器将此偏移量添加到网络参数更新中的分母，以避免除零。该参数仅在以下情况下有效`优化器`是`“亚当”`或`“rmsprop”`．在这种情况下，缺省值为10⁸．这个默认值对于大多数问题都很有效。
`GradientDecayFactor`	梯度移动平均的衰减率，指定为从0到1的正标量。该参数仅在以下情况下有效`优化器`是`“亚当”`．在这种情况下，默认值是0.9。这个默认值对于大多数问题都很有效。
`SquaredGradientDecayFactor`	平方梯度移动平均的衰减率，指定为从0到1的正标量。该参数仅在以下情况下有效`优化器`是`“亚当”`或`“rmsprop”`．在这种情况下，默认值是0.999。这个默认值对于大多数问题都很有效。

的特定属性时OptimizerParameters中指定的优化器类型不适用优化器选项，该属性被设置为“不适用”．

若要更改默认值，请创建rlRepresentationOptions的属性设置并使用点表示法来访问和更改OptimizerParameters．

repOpts = rlRepresentationOptions;repOpts.OptimizerParameters.GradientDecayFactor = 0.95;

`GradientThreshold`- - - - - -梯度阈值
`正`(默认)|积极的标量

表示梯度的阈值，指定为正或者一个正的标量。方法指定的渐变将被剪切GradientThresholdMethod选择。裁剪梯度限制了训练迭代中网络参数的变化。

例子:“GradientThreshold”,1

`GradientThresholdMethod`- - - - - -梯度阈值法
`“l2norm”`(默认)|`“global-l2norm”`|`“绝对值”`

梯度阈值方法用于裁剪超过梯度阈值的梯度值，指定为以下值之一。

“l2norm”-如果l₂可学习参数的梯度范数大于GradientThreshold，然后缩放梯度，使l₂规范=GradientThreshold．
“global-l2norm”—如果全局l₂规范,l，大于GradientThreshold，然后将所有梯度缩放为GradientThreshold /l．全球l₂Norm考虑了所有可学习的参数。
“绝对值”-如果可学习参数的梯度中个别偏导数的绝对值大于GradientThreshold，然后缩放偏导数得到模等于GradientThreshold保留偏导数的符号。

有关更多信息，请参见梯度剪裁的算法部分trainingOptions在深度学习工具箱中。

例子:“GradientThresholdMethod”、“绝对值”

`L2RegularizationFactor`- - - - - -因素l₂正则化
0.0001(默认)|负的标量

因素l₂正则化(权值衰减)，指定为非负标量。有关更多信息，请参见L2正规化的算法部分trainingOptions在深度学习工具箱中。

在使用具有多个参数的表示时，为了避免过拟合，请考虑增加L2RegularizationFactor选择。

例子:“L2RegularizationFactor”,0.0005

`UseDevice`- - - - - -训练用计算装置
`“cpu”`(默认)|`“图形”`

用于在训练过程中进行梯度计算、参数更新和预测等深度神经网络操作的计算设备。它被指定为任意一种“cpu”或“图形”．

的“图形”选项需要并行计算工具箱™软件和CUDA^®使英伟达^®GPU。有关支持的gpu的更多信息，请参见GPU计算要求(并行计算工具箱)．

你可以用gpuDevice(并行计算工具箱)查询或选择一个本地GPU设备，以与MATLAB一起使用^®．

请注意

在GPU上训练或模拟一个代理涉及到设备特定的数值舍入误差。与在CPU上执行相同的操作相比，这些错误会产生不同的结果。

注意，如果您想使用并行处理来加速训练，则不需要设置UseDevice．相反，在训练你的特工时，使用rlTrainingOptions对象，其中UseParallel选项设置为真正的．有关使用多核处理器和gpu进行培训的更多信息，请参见使用并行计算和图形处理器训练代理．

例子:“UseDevice”、“gpu”

对象的功能

`rlValueRepresentation`	(不推荐)强化学习代理的值函数批评表示
`rlQValueRepresentation`	(不推荐)强化学习代理的q值函数批评表示
`rlDeterministicActorRepresentation`	(不推荐)强化学习代理的确定性参与者表示
`rlStochasticActorRepresentation`	(不推荐)强化学习代理的随机参与者表示

例子

全部折叠

配置创建表示的选项

打开实时脚本

创建选项集，用于为强化学习代理创建批评者或参与者表示。将表示的学习率设置为0.05，将梯度阈值设置为1。在创建选项集时，可以使用名称、值对设置选项。没有显式设置的任何选项都有其默认值。

repOpts = rlRepresentationOptions(“LearnRate”5飞行,.．.“GradientThreshold”，1)

repOpts = rlRepresentationOptions with properties: LearnRate: 0.0500 GradientThreshold: 1 GradientThresholdMethod: "l2norm" L2RegularizationFactor: 1.0000e-04 UseDevice: "cpu" Optimizer: "adam" OptimizerParameters: [1x1 rl.option.OptimizerParameters]

或者，创建一个默认选项集，并使用点表示法更改一些值。

repOpts = rlRepresentationOptions;repOpts。learnRate = 5e-2; repOpts.GradientThreshold = 1

repOpts = rlRepresentationOptions with properties: LearnRate: 0.0500 GradientThreshold: 1 GradientThresholdMethod: "l2norm" L2RegularizationFactor: 1.0000e-04 UseDevice: "cpu" Optimizer: "adam" OptimizerParameters: [1x1 rl.option.OptimizerParameters]

的属性OptimizerParameters选项，使用点表示法访问它们。

repOpts.OptimizerParameters.Epsilon = 1e-7;repOpts。OptimizerParameters

Epsilon: 1.0000e-07 GradientDecayFactor: 0.9000 SquaredGradientDecayFactor: 0.9990

版本历史

在R2019a中引入

全部展开

R2022a:`rlRepresentationOptions`不建议

rlRepresentationOptions不再推荐使用对象。要为参与者和评论家指定优化选项，请使用rlOptimizerOptions而不是对象。

具体来说，您可以创建一个代理选项对象并设置其CriticOptimizerOptions而且ActorOptimizerOptions适合的物业rlOptimizerOptions对象。然后将代理选项对象传递给创建代理的函数。这个工作流程如下表所示。

rlRepresentationOptions:不建议 rlOptimizerOptions推荐:

`rlRepresentationOptions`:不建议	`rlOptimizerOptions`推荐:
crtOpts = rlRepresentationOptions(…' GradientThreshold ', 1);批评家= rlValueRepresentation(…净,obsInfo,“观察”,{“突发”},ctrOpts)	criticOpts = rlOptimizerOptions(…' GradientThreshold ', 1);agentOpts = rlACAgentOptions(…CriticOptimizerOptions, crtOpts);agent = rlACAgent(演员，评论家，agentOpts)

crtOpts = rlRepresentationOptions(…' GradientThreshold ', 1);批评家= rlValueRepresentation(…净,obsInfo,“观察”,{“突发”},ctrOpts)

criticOpts = rlOptimizerOptions(…' GradientThreshold ', 1);agentOpts = rlACAgentOptions(…CriticOptimizerOptions, crtOpts);agent = rlACAgent(演员，评论家，agentOpts)

或者，您可以创建代理，然后使用点表示法访问代理参与者和批评者的优化选项，例如:agent.AgentOptions.ActorOptimizerOptions.GradientThreshold = 1;．

rlRepresentationOptions

描述

创建

语法

描述

属性

`LearnRate`- - - - - -表示的学习率
`0.01`(默认)|积极的标量

`优化器`- - - - - -表示优化器
`“亚当”`(默认)|`“个”`|`“rmsprop”`

`OptimizerParameters`- - - - - -优化器的适用参数
`OptimizerParameters`对象

`GradientThreshold`- - - - - -梯度阈值
`正`(默认)|积极的标量

`GradientThresholdMethod`- - - - - -梯度阈值法
`“l2norm”`(默认)|`“global-l2norm”`|`“绝对值”`

`L2RegularizationFactor`- - - - - -因素l₂正则化
0.0001(默认)|负的标量

`UseDevice`- - - - - -训练用计算装置
`“cpu”`(默认)|`“图形”`

对象的功能

例子

配置创建表示的选项

版本历史

R2022a:`rlRepresentationOptions`不建议

另请参阅

主题

rlRepresentationOptions

描述

创建

语法

描述

属性

LearnRate- - - - - -表示的学习率0.01(默认)|积极的标量

优化器- - - - - -表示优化器“亚当”(默认)|“个”|“rmsprop”

OptimizerParameters- - - - - -优化器的适用参数OptimizerParameters对象

GradientThreshold- - - - - -梯度阈值正(默认)|积极的标量

GradientThresholdMethod- - - - - -梯度阈值法“l2norm”(默认)|“global-l2norm”|“绝对值”

L2RegularizationFactor- - - - - -因素l2正则化0.0001(默认)|负的标量

UseDevice- - - - - -训练用计算装置“cpu”(默认)|“图形”

对象的功能

例子

配置创建表示的选项

版本历史

R2022a:rlRepresentationOptions不建议

另请参阅

主题

`LearnRate`- - - - - -表示的学习率
`0.01`(默认)|积极的标量

`优化器`- - - - - -表示优化器
`“亚当”`(默认)|`“个”`|`“rmsprop”`

`OptimizerParameters`- - - - - -优化器的适用参数
`OptimizerParameters`对象

`GradientThreshold`- - - - - -梯度阈值
`正`(默认)|积极的标量

`GradientThresholdMethod`- - - - - -梯度阈值法
`“l2norm”`(默认)|`“global-l2norm”`|`“绝对值”`

`L2RegularizationFactor`- - - - - -因素l₂正则化
0.0001(默认)|负的标量

`UseDevice`- - - - - -训练用计算装置
`“cpu”`(默认)|`“图形”`

R2022a:`rlRepresentationOptions`不建议