rlValueFunction
强化学习代理的值函数逼近对象
描述
该对象实现了一个值函数逼近器对象,您可以将其用作强化学习代理的批评。值函数将环境状态映射到标量值。当智能体从给定状态开始并采取可能的最佳行动时,输出表示预测的折现累积长期奖励。在创建一个rlValueFunction
评论家,使用它来创建一个代理,例如rlACAgent
,rlPGAgent
,或rlPPOAgent
代理。有关此工作流的示例,请参见创建演员和评论家代表.有关创建值函数的详细信息,请参见创建策略和值函数.
创建
语法
描述
创建值-函数对象评论家
= rlValueFunction (网
,observationInfo
)评论家
来自深度神经网络网
并设置ObservationInfo
的属性评论家
到observationInfo
输入参数。网络输入层根据中尺寸规范自动与环境观测通道关联observationInfo
.
指定与环境观测通道关联的网络输入层名称。该功能按顺序分配中指定的每个环境观测通道评论家
= rlValueFunction (网
ObservationInputNames =netObsNames
)observationInfo
到字符串数组中对应名称指定的层netObsNames
.因此,在网络输入层中,按名称顺序排列netObsNames
,必须与观测通道具有相同的数据类型和维度observationInfo
.
创建值函数对象评论家
= rlValueFunction (选项卡
,observationInfo
)评论家
与一个离散观测空间,从桌子上选项卡
,这是一个rlTable
对象,该对象包含列数组,其中元素与可能的观测值数量相同。函数设置ObservationInfo
的属性评论家
到observationInfo
输入参数,在本例中必须是标量rlFiniteSetSpec
对象。
属性的计算所使用的设备评论家
= rlValueFunction (___UseDevice =useDevice
)评论家
对象,并设置UseDevice
的属性评论家
到useDevice
输入参数。您可以将此语法用于前面的任何输入-参数组合。
输入参数
属性
对象的功能
rlACAgent |
演员-评论家强化学习代理 |
rlPGAgent |
策略梯度强化学习代理 |
rlPPOAgent |
近端策略优化强化学习代理 |
getValue |
根据环境观察和行动,从评论家那里获得估计值 |
评估 |
给定观测(或观测-动作)输入数据,求函数逼近对象 |
梯度 |
给定观测和动作输入数据,求函数逼近对象的梯度 |
加速 |
基于神经网络的逼近对象梯度加速计算选项 |
getLearnableParameters |
从代理、函数逼近器或策略对象获取可学习的参数值 |
setLearnableParameters |
设置agent、函数逼近器或策略对象的可学习参数值 |
setModel |
为演员或评论家设置函数逼近模型 |
getModel |
从演员或评论家那里得到函数逼近器模型 |
例子
版本历史
R2022a中引入