政策与价值功能

定义策略和价值函数近似器，如演员和评论家

强化学习策略是从当前环境观察到要采取的行动的概率分布的映射。价值函数是从环境观察(或观察-行动对)到策略的价值(预期的累积长期回报)的映射。在训练过程中，智能体调整其策略和值函数逼近器的参数，以最大化长期奖励。

强化学习工具箱™软件为演员和评论家提供近似对象。参与者学习选择最佳行动的策略。批评家学习估计当前策略价值的值(或q值)函数。根据您的应用程序和选择的代理，您可以使用不同的近似模型(如深度神经网络、线性基函数或查找表)定义策略和值函数近似器。有关更多信息，请参见创建策略和价值功能。

块

强化学习策略

`rlTable`	值表或Q表
`rlValueFunction`	用于强化学习代理的值函数逼近器对象
`rlQValueFunction`	用于强化学习代理的q值函数逼近器对象
`rlVectorQValueFunction`	用于强化学习代理的向量q值函数逼近器
`rlContinuousDeterministicActor`	具有连续动作空间的确定性行动者用于强化学习代理
`rlDiscreteCategoricalActor`	具有离散动作空间的随机分类行动者用于强化学习代理
`rlContinuousGaussianActor`	具有连续动作空间的随机高斯actor用于强化学习代理

rlOptimizerOptions 演员和评论家的优化选项

`getGreedyPolicy`	从代理中提取贪婪(确定性)策略对象
`getExplorationPolicy`	从代理中提取探索性(随机)策略对象

`rlMaxQPolicy`	策略对象，为自定义训练循环和应用程序部署生成离散的max-Q操作
`rlEpsilonGreedyPolicy`	策略对象，为自定义训练循环生成离散的贪心动作
`rlDeterministicActorPolicy`	策略对象，为自定义训练循环和应用程序部署生成连续的确定性操作
`rlAdditiveNoisePolicy`	策略对象，为自定义训练循环生成连续的噪声动作
`rlStochasticActorPolicy`	策略对象，为自定义训练循环和应用程序部署生成随机操作

`getAction`	从给定环境观察的代理、参与者或策略对象获取操作
`getValue`	从评论家给出的环境观察和行动中获得估计价值
`getMaxQValue`	在给定的环境观测下，从具有离散动作空间的q值函数批评家获得所有可能动作的最大估计值
`评估`	给定观察(或观察-动作)输入数据，计算函数逼近器对象
`梯度`	给定观察和动作输入数据，评估函数逼近器对象的梯度
`加速`	基于神经网络加速逼近对象梯度计算的选项