政策与价值功能
定义策略和价值函数近似器,如演员和评论家
强化学习策略是从当前环境观察到要采取的行动的概率分布的映射。价值函数是从环境观察(或观察-行动对)到策略的价值(预期的累积长期回报)的映射。在训练过程中,智能体调整其策略和值函数逼近器的参数,以最大化长期奖励。
强化学习工具箱™软件为演员和评论家提供近似对象。参与者学习选择最佳行动的策略。批评家学习估计当前策略价值的值(或q值)函数。根据您的应用程序和选择的代理,您可以使用不同的近似模型(如深度神经网络、线性基函数或查找表)定义策略和值函数近似器。有关更多信息,请参见创建策略和价值功能。
块
政策 | 强化学习策略 |
功能
创建演员和评论家
rlTable |
值表或Q表 |
rlValueFunction |
用于强化学习代理的值函数逼近器对象 |
rlQValueFunction |
用于强化学习代理的q值函数逼近器对象 |
rlVectorQValueFunction |
用于强化学习代理的向量q值函数逼近器 |
rlContinuousDeterministicActor |
具有连续动作空间的确定性行动者用于强化学习代理 |
rlDiscreteCategoricalActor |
具有离散动作空间的随机分类行动者用于强化学习代理 |
rlContinuousGaussianActor |
具有连续动作空间的随机高斯actor用于强化学习代理 |
从经纪人处获取和设置演员和评论家
获取和设置近似模型和可学习参数
getModel |
从演员或评论家那里得到函数逼近器模型 |
setModel |
演员或评论家的集合函数近似模型 |
getLearnableParameters |
从代理、函数逼近器或策略对象中获取可学习的参数值 |
setLearnableParameters |
设置代理、函数逼近器或策略对象的可学习参数值 |
演员和评论家的培训选择
rlOptimizerOptions |
演员和评论家的优化选项 |
从代理中提取策略对象
getGreedyPolicy |
从代理中提取贪婪(确定性)策略对象 |
getExplorationPolicy |
从代理中提取探索性(随机)策略对象 |
为自定义培训和部署创建策略对象
rlMaxQPolicy |
策略对象,为自定义训练循环和应用程序部署生成离散的max-Q操作 |
rlEpsilonGreedyPolicy |
策略对象,为自定义训练循环生成离散的贪心动作 |
rlDeterministicActorPolicy |
策略对象,为自定义训练循环和应用程序部署生成连续的确定性操作 |
rlAdditiveNoisePolicy |
策略对象,为自定义训练循环生成连续的噪声动作 |
rlStochasticActorPolicy |
策略对象,为自定义训练循环和应用程序部署生成随机操作 |
获取动作和值
深度神经网络层
quadraticLayer |
演员或评论家网络的二次层 |
scalingLayer |
演员或评论家网络的缩放层 |
softplusLayer |
演员或评论家网络的软加层 |
featureInputLayer |
特征输入层 |
reluLayer |
整流线性单元(ReLU)层 |
tanhLayer |
双曲正切(tanh)层 |
fullyConnectedLayer |
全连通层 |
lstmLayer |
递归神经网络(RNN)的长短期记忆(LSTM)层 |
softmaxLayer |
Softmax层 |
Matlab
。
。WebブラウザーはMATLABコマンドをサポートしていません。
你亦可选择下列网址:
如何获得最佳的网站性能
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家网站没有针对您所在位置的访问进行优化。