政策与价值功能
定义政策和价值函数近似者,如参与者和批评者
强化学习策略是从当前环境观察到要采取的行动的概率分布的映射。在训练过程中,智能体调整其策略逼近器的参数,使长期收益最大化。
强化学习工具箱™软件为参与者和批评者提供了近似器对象。执行者执行选择最佳行动的策略。批评家实现价值(或Q-value)函数,该函数估计当前政策的价值(累积的长期回报)。根据您的应用程序和所选代理,您可以使用不同的近似模型(如深度神经网络、线性基函数或查找表)定义策略和值函数近似器。有关更多信息,请参见创建政策和价值功能。
块
政策 | 强化学习政策 |
功能
培养演员和评论家
rlTable |
值表或Q表 |
rlValueFunction |
强化学习代理的值函数逼近器对象 |
rlQValueFunction |
强化学习代理的q值函数逼近器对象 |
rlVectorQValueFunction |
强化学习代理的矢量q值函数逼近器 |
rlContinuousDeterministicActor |
强化学习agent的具有连续动作空间的确定性actor |
rlDiscreteCategoricalActor |
具有离散动作空间的随机分类体强化学习代理 |
rlContinuousGaussianActor |
用于强化学习agent的具有连续动作空间的随机高斯actor |
演员和评论家的培训选择
rlOptimizerOptions |
演员和影评人的优化选项 |
为自定义培训和部署创建策略对象
rlMaxQPolicy |
策略对象,为自定义训练循环和应用程序部署生成离散的max-Q操作 |
rlEpsilonGreedyPolicy |
策略对象为自定义训练循环生成离散的epsilon-greedy操作 |
rlDeterministicActorPolicy |
策略对象,为自定义训练循环和应用程序部署生成连续的确定性操作 |
rlAdditiveNoisePolicy |
策略对象为自定义训练循环生成连续的噪声动作 |
rlStochasticActorPolicy |
策略对象为自定义训练循环和应用程序部署生成随机操作 |
深度神经网络层
quadraticLayer |
演员或评论家网络的二次层 |
scalingLayer |
演员或评论家网络的伸缩层 |
softplusLayer |
演员或评论家网络的软加层 |
featureInputLayer |
特性输入层 |
reluLayer |
整流线性单元(ReLU)层 |
tanhLayer |
双曲正切(tanh)层 |
fullyConnectedLayer |
完全连接层 |
lstmLayer |
长短时记忆(LSTM)层 |
softmaxLayer |
Softmax层 |
获取和设置演员和评论家参数
getActor |
从强化学习代理中获取actor |
setActor |
设置强化学习代理的actor |
getCritic |
从强化学习代理中获得批评 |
setCritic |
强化学习剂的设置批评家 |
getLearnableParameters |
从代理、函数逼近器或策略对象中获取可学习的参数值 |
setLearnableParameters |
设置代理、函数逼近器或策略对象的可学习参数值 |
getModel |
从演员或评论家那里得到函数近似模型 |
setModel |
设定演员或评论家的函数逼近模型 |
MATLAB命令
你点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。
您也可以从以下列表中选择网站:
如何获得最佳的网站性能
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。