政策和价值功能
定义政策和价值函数近似值,例如参与者和批评家
强化学习策略是从当前环境观察到要采取的行动的概率分布的映射。在训练过程中,智能体调整其策略逼近器的参数以使长期奖励最大化。
强化学习工具箱™软件为演员和评论家提供了近似对象。参与者实现选择要采取的最佳操作的策略。评论家实现价值(或q值)函数,该函数估计当前政策的价值(累积的长期回报)。根据您的应用程序和选定的代理,您可以使用不同的近似模型(如深度神经网络、线性基函数或查找表)定义策略函数和值函数逼近器。有关更多信息,请参见创建策略和值函数.
块
政策 | 强化学习策略 |
功能
创造演员和评论家
rlTable |
值表或Q表 |
rlValueFunction |
强化学习代理的值函数逼近对象 |
rlQValueFunction |
强化学习代理的q值函数逼近对象 |
rlVectorQValueFunction |
向量q值函数逼近强化学习代理 |
rlContinuousDeterministicActor |
具有连续动作空间的确定性行为体用于强化学习代理 |
rlDiscreteCategoricalActor |
具有离散动作空间的随机分类actor强化学习代理 |
rlContinuousGaussianActor |
一种具有连续动作空间的随机高斯体强化学习代理 |
演员和评论家的培训选择
rlOptimizerOptions |
演员和评论家的优化选项 |
为自定义培训和部署创建策略对象
rlMaxQPolicy |
策略对象为自定义训练循环和应用程序部署生成离散的max-Q动作 |
rlEpsilonGreedyPolicy |
策略对象为自定义训练循环生成离散的贪心操作 |
rlDeterministicActorPolicy |
策略对象为自定义训练循环和应用程序部署生成连续的确定性操作 |
rlAdditiveNoisePolicy |
策略对象为自定义训练循环生成连续的噪声动作 |
rlStochasticActorPolicy |
策略对象为自定义训练循环和应用程序部署生成随机操作 |
深度神经网络层
quadraticLayer |
演员或评论家网络的二次层 |
scalingLayer |
演员或评论家网络的缩放层 |
softplusLayer |
演员或评论家网络的软加层 |
featureInputLayer |
特征输入层 |
reluLayer |
整流线性单元(ReLU)层 |
tanhLayer |
双曲正切(tanh)层 |
fullyConnectedLayer |
全连接层 |
lstmLayer |
长短期记忆层 |
softmaxLayer |
Softmax层 |
获取和设置演员和评论家参数
getActor |
从强化学习代理中得到actor |
setActor |
强化学习代理的集合角色 |
getCritic |
从强化学习代理获得评论家 |
setCritic |
强化学习代理集评论家 |
getLearnableParameters |
从代理、函数逼近器或策略对象获取可学习的参数值 |
setLearnableParameters |
设置agent、函数逼近器或策略对象的可学习参数值 |
getModel |
从演员或评论家那里得到函数逼近器模型 |
setModel |
为演员或评论家设置函数逼近模型 |
MATLAB突击队
Ha hecho clic en unenlace que对应一个este commando de MATLAB:
弹射突击队introduciéndolo en la ventana de commandos de MATLAB。Los navegadores web no permission comandos de MATLAB。
您也可以从以下列表中选择一个网站:
如何获得最佳的网站性能
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。