主要内容

政策与价值功能

定义政策和价值函数近似者,如参与者和批评者

强化学习策略是从当前环境观察到要采取的行动的概率分布的映射。在训练过程中,智能体调整其策略逼近器的参数,使长期收益最大化。

强化学习工具箱™软件为参与者和批评者提供了近似器对象。执行者执行选择最佳行动的策略。批评家实现价值(或Q-value)函数,该函数估计当前政策的价值(累积的长期回报)。根据您的应用程序和所选代理,您可以使用不同的近似模型(如深度神经网络、线性基函数或查找表)定义策略和值函数近似器。有关更多信息,请参见创建政策和价值功能

政策 强化学习政策

功能

全部展开

rlTable 值表或Q表
rlValueFunction 强化学习代理的值函数逼近器对象
rlQValueFunction 强化学习代理的q值函数逼近器对象
rlVectorQValueFunction 强化学习代理的矢量q值函数逼近器
rlContinuousDeterministicActor 强化学习agent的具有连续动作空间的确定性actor
rlDiscreteCategoricalActor 具有离散动作空间的随机分类体强化学习代理
rlContinuousGaussianActor 用于强化学习agent的具有连续动作空间的随机高斯actor
rlOptimizerOptions 演员和影评人的优化选项
rlMaxQPolicy 策略对象,为自定义训练循环和应用程序部署生成离散的max-Q操作
rlEpsilonGreedyPolicy 策略对象为自定义训练循环生成离散的epsilon-greedy操作
rlDeterministicActorPolicy 策略对象,为自定义训练循环和应用程序部署生成连续的确定性操作
rlAdditiveNoisePolicy 策略对象为自定义训练循环生成连续的噪声动作
rlStochasticActorPolicy 策略对象为自定义训练循环和应用程序部署生成随机操作
quadraticLayer 演员或评论家网络的二次层
scalingLayer 演员或评论家网络的伸缩层
softplusLayer 演员或评论家网络的软加层
featureInputLayer 特性输入层
reluLayer 整流线性单元(ReLU)层
tanhLayer 双曲正切(tanh)层
fullyConnectedLayer 完全连接层
lstmLayer 长短时记忆(LSTM)层
softmaxLayer Softmax层
getActor 从强化学习代理中获取actor
setActor 设置强化学习代理的actor
getCritic 从强化学习代理中获得批评
setCritic 强化学习剂的设置批评家
getLearnableParameters 从代理、函数逼近器或策略对象中获取可学习的参数值
setLearnableParameters 设置代理、函数逼近器或策略对象的可学习参数值
getModel 从演员或评论家那里得到函数近似模型
setModel 设定演员或评论家的函数逼近模型
getAction 在给定的环境观察中,从代理、参与者或策略对象获取操作
getValue 从评论家的环境观察和行动中获得估计的价值
getMaxQValue 在给定的环境观测条件下,从具有离散行动空间的q -值函数临界中获得所有可能行动的最大估计值
评估 给定观测(或观测-动作)输入数据,求函数逼近器对象的值
梯度 给定观测和动作输入数据,求函数逼近器目标的梯度
加速 基于神经网络的近似器对象梯度加速计算方案

主题

Baidu
map