主要内容

政策与价值功能

定义策略和价值函数近似器,如演员和评论家

强化学习策略是从当前环境观察到要采取的行动的概率分布的映射。价值函数是从环境观察(或观察-行动对)到策略的价值(预期的累积长期回报)的映射。在训练过程中,智能体调整其策略和值函数逼近器的参数,以最大化长期奖励。

强化学习工具箱™软件为演员和评论家提供近似对象。参与者学习选择最佳行动的策略。批评家学习估计当前策略价值的值(或q值)函数。根据您的应用程序和选择的代理,您可以使用不同的近似模型(如深度神经网络、线性基函数或查找表)定义策略和值函数近似器。有关更多信息,请参见创建策略和价值功能

政策 强化学习策略

功能

全部展开

rlTable 值表或Q表
rlValueFunction 用于强化学习代理的值函数逼近器对象
rlQValueFunction 用于强化学习代理的q值函数逼近器对象
rlVectorQValueFunction 用于强化学习代理的向量q值函数逼近器
rlContinuousDeterministicActor 具有连续动作空间的确定性行动者用于强化学习代理
rlDiscreteCategoricalActor 具有离散动作空间的随机分类行动者用于强化学习代理
rlContinuousGaussianActor 具有连续动作空间的随机高斯actor用于强化学习代理
getActor 从强化学习代理中提取行动者
setActor 强化学习智能体的集合行动者
getCritic 从强化学习代理中提取批评
setCritic 强化学习智能体的集合批评
getModel 从演员或评论家那里得到函数逼近器模型
setModel 演员或评论家的集合函数近似模型
getLearnableParameters 从代理、函数逼近器或策略对象中获取可学习的参数值
setLearnableParameters 设置代理、函数逼近器或策略对象的可学习参数值
rlOptimizerOptions 演员和评论家的优化选项
getGreedyPolicy 从代理中提取贪婪(确定性)策略对象
getExplorationPolicy 从代理中提取探索性(随机)策略对象
rlMaxQPolicy 策略对象,为自定义训练循环和应用程序部署生成离散的max-Q操作
rlEpsilonGreedyPolicy 策略对象,为自定义训练循环生成离散的贪心动作
rlDeterministicActorPolicy 策略对象,为自定义训练循环和应用程序部署生成连续的确定性操作
rlAdditiveNoisePolicy 策略对象,为自定义训练循环生成连续的噪声动作
rlStochasticActorPolicy 策略对象,为自定义训练循环和应用程序部署生成随机操作
getAction 从给定环境观察的代理、参与者或策略对象获取操作
getValue 从评论家给出的环境观察和行动中获得估计价值
getMaxQValue 在给定的环境观测下,从具有离散动作空间的q值函数批评家获得所有可能动作的最大估计值
评估 给定观察(或观察-动作)输入数据,计算函数逼近器对象
梯度 给定观察和动作输入数据,评估函数逼近器对象的梯度
加速 基于神经网络加速逼近对象梯度计算的选项
quadraticLayer 演员或评论家网络的二次层
scalingLayer 演员或评论家网络的缩放层
softplusLayer 演员或评论家网络的软加层
featureInputLayer 特征输入层
reluLayer 整流线性单元(ReLU)层
tanhLayer 双曲正切(tanh)层
fullyConnectedLayer 全连通层
lstmLayer 递归神经网络(RNN)的长短期记忆(LSTM)层
softmaxLayer Softmax层

主题

Baidu
map