主要内容

政策和价值功能

定义政策和价值函数近似值,例如参与者和批评家

强化学习策略是从当前环境观察到要采取的行动的概率分布的映射。在训练过程中,智能体调整其策略逼近器的参数以使长期奖励最大化。

强化学习工具箱™软件为演员和评论家提供了近似对象。参与者实现选择要采取的最佳操作的策略。评论家实现价值(或q值)函数,该函数估计当前政策的价值(累积的长期回报)。根据您的应用程序和选定的代理,您可以使用不同的近似模型(如深度神经网络、线性基函数或查找表)定义策略函数和值函数逼近器。有关更多信息,请参见创建策略和值函数

政策 强化学习策略

功能

全部展开

rlTable 值表或Q表
rlValueFunction 强化学习代理的值函数逼近对象
rlQValueFunction 强化学习代理的q值函数逼近对象
rlVectorQValueFunction 向量q值函数逼近强化学习代理
rlContinuousDeterministicActor 具有连续动作空间的确定性行为体用于强化学习代理
rlDiscreteCategoricalActor 具有离散动作空间的随机分类actor强化学习代理
rlContinuousGaussianActor 一种具有连续动作空间的随机高斯体强化学习代理
rlOptimizerOptions 演员和评论家的优化选项
rlMaxQPolicy 策略对象为自定义训练循环和应用程序部署生成离散的max-Q动作
rlEpsilonGreedyPolicy 策略对象为自定义训练循环生成离散的贪心操作
rlDeterministicActorPolicy 策略对象为自定义训练循环和应用程序部署生成连续的确定性操作
rlAdditiveNoisePolicy 策略对象为自定义训练循环生成连续的噪声动作
rlStochasticActorPolicy 策略对象为自定义训练循环和应用程序部署生成随机操作
quadraticLayer 演员或评论家网络的二次层
scalingLayer 演员或评论家网络的缩放层
softplusLayer 演员或评论家网络的软加层
featureInputLayer 特征输入层
reluLayer 整流线性单元(ReLU)层
tanhLayer 双曲正切(tanh)层
fullyConnectedLayer 全连接层
lstmLayer 长短期记忆层
softmaxLayer Softmax层
getActor 从强化学习代理中得到actor
setActor 强化学习代理的集合角色
getCritic 从强化学习代理获得评论家
setCritic 强化学习代理集评论家
getLearnableParameters 从代理、函数逼近器或策略对象获取可学习的参数值
setLearnableParameters 设置agent、函数逼近器或策略对象的可学习参数值
getModel 从演员或评论家那里得到函数逼近器模型
setModel 为演员或评论家设置函数逼近模型
getAction 从给定环境观察的代理、参与者或策略对象获取操作
getValue 根据环境观察和行动,从评论家那里获得估计值
getMaxQValue 在给定环境观测的情况下,从具有离散动作空间的q值函数评论家获得所有可能动作的最大估计值
评估 给定观测(或观测-动作)输入数据,求函数逼近对象
梯度 给定观测和动作输入数据,求函数逼近对象的梯度
加速 基于神经网络的逼近对象梯度加速计算选项

主题

Baidu
map