政策和价值功能

定义政策和价值函数近似值，例如参与者和批评家

强化学习策略是从当前环境观察到要采取的行动的概率分布的映射。在训练过程中，智能体调整其策略逼近器的参数以使长期奖励最大化。

强化学习工具箱™软件为演员和评论家提供了近似对象。参与者实现选择要采取的最佳操作的策略。评论家实现价值(或q值)函数，该函数估计当前政策的价值(累积的长期回报)。根据您的应用程序和选定的代理，您可以使用不同的近似模型(如深度神经网络、线性基函数或查找表)定义策略函数和值函数逼近器。有关更多信息，请参见创建策略和值函数．

块

政策

强化学习策略

功能

全部展开

创造演员和评论家

`rlTable`	值表或Q表
`rlValueFunction`	强化学习代理的值函数逼近对象
`rlQValueFunction`	强化学习代理的q值函数逼近对象
`rlVectorQValueFunction`	向量q值函数逼近强化学习代理
`rlContinuousDeterministicActor`	具有连续动作空间的确定性行为体用于强化学习代理
`rlDiscreteCategoricalActor`	具有离散动作空间的随机分类actor强化学习代理
`rlContinuousGaussianActor`	一种具有连续动作空间的随机高斯体强化学习代理

演员和评论家的培训选择

rlOptimizerOptions 演员和评论家的优化选项

为自定义培训和部署创建策略对象

`rlMaxQPolicy`	策略对象为自定义训练循环和应用程序部署生成离散的max-Q动作
`rlEpsilonGreedyPolicy`	策略对象为自定义训练循环生成离散的贪心操作
`rlDeterministicActorPolicy`	策略对象为自定义训练循环和应用程序部署生成连续的确定性操作
`rlAdditiveNoisePolicy`	策略对象为自定义训练循环生成连续的噪声动作
`rlStochasticActorPolicy`	策略对象为自定义训练循环和应用程序部署生成随机操作

深度神经网络层

`quadraticLayer`	演员或评论家网络的二次层
`scalingLayer`	演员或评论家网络的缩放层
`softplusLayer`	演员或评论家网络的软加层
`featureInputLayer`	特征输入层
`reluLayer`	整流线性单元(ReLU)层
`tanhLayer`	双曲正切(tanh)层
`fullyConnectedLayer`	全连接层
`lstmLayer`	长短期记忆层
`softmaxLayer`	Softmax层

获取和设置演员和评论家参数

`getActor`	从强化学习代理中得到actor
`setActor`	强化学习代理的集合角色
`getCritic`	从强化学习代理获得评论家
`setCritic`	强化学习代理集评论家
`getLearnableParameters`	从代理、函数逼近器或策略对象获取可学习的参数值
`setLearnableParameters`	设置agent、函数逼近器或策略对象的可学习参数值
`getModel`	从演员或评论家那里得到函数逼近器模型
`setModel`	为演员或评论家设置函数逼近模型

获取行动和价值

`getAction`	从给定环境观察的代理、参与者或策略对象获取操作
`getValue`	根据环境观察和行动，从评论家那里获得估计值
`getMaxQValue`	在给定环境观测的情况下，从具有离散动作空间的q值函数评论家获得所有可能动作的最大估计值
`评估`	给定观测(或观测-动作)输入数据，求函数逼近对象
`梯度`	给定观测和动作输入数据，求函数逼近对象的梯度
`加速`	基于神经网络的逼近对象梯度加速计算选项

主题

创建策略和值函数
使用函数逼近器(如深度神经网络)指定策略和值函数。
导入神经网络模型
您可以使用ONNX™模型格式从其他深度学习框架导入现有策略。