创建自定义强化学习代理
要实现您自己的自定义强化学习算法,您可以通过创建自定义代理类的子类来创建自定义代理。然后可以在MATLAB中训练和模拟这个代理®和仿真软件®环境。有关在MATLAB中创建类的更多信息,请参见用户定义的类.
创建模板类
类的子类来定义自定义代理,首先创建一个类rl.agent.CustomAgent
类。作为示例,本主题将介绍培训过的自定义LQR代理培训自定义LQR代理.作为您自己的代理的起点,您可以打开和修改这个自定义代理类。要将示例文件添加到MATLAB路径并打开该文件,请在MATLAB命令行中键入以下代码。
目录(fullfile (matlabroot,“例子”,“rl”,“主要”));编辑LQRCustomAgent.m
将类保存到您自己的工作文件夹后,您可以从该路径中删除示例文件。
rmpath (fullfile (matlabroot,“例子”,“rl”,“主要”));
这个类具有以下类定义,它指示代理类名和关联的抽象代理。
classdefLQRCustomAgent < rl.agent.CustomAgent
要定义代理,必须指定以下内容:
代理的属性
构造函数
一个评估贴现长期回报的批评家(如果学习需要的话)
根据当前观察选择动作的参与者(如果需要学习)
需要代理的方法
可选代理方法
代理的属性
在属性
部分,指定创建和训练代理所需的任何参数。这些参数包括:
折现因子,用于折现未来奖励
探测模型的配置参数,例如噪声模型或贪婪探测
体验使用重放内存的缓冲
从经验缓冲区采样的小批量大小
在训练过程中要预测的步数
有关潜在代理属性的更多信息,请参阅内置的强化学习工具箱™代理的选项对象。
的rl.Agent.CustomAgent
类已包含代理示例时间的属性(SampleTime
)及行动及观察细则(ActionInfo
而且ObservationInfo
分别)。
自定义LQR代理定义了以下代理属性。
属性%问问R %R%反馈增益K%的折扣因素γ= 0.95%的批评家评论家K的%缓冲区KBufferK的更新次数%KUpdate = 1估计器更新的%数EstimateNum = 10结束properties (Access = private) Counter = 1 YBuffer HBuffer结束
构造函数
要创建自定义代理,必须定义一个构造函数:
定义动作和观察规范。有关创建这些规范的详细信息,请参见
rlNumericSpec
而且rlFiniteSetSpec
.根据训练算法的要求创建演员和评论家。有关更多信息,请参见创建政策和价值功能.
配置代理属性。
调用基抽象类的构造函数。
例如,LQRCustomAgent
构造函数定义连续的动作和观察空间,并创建一个批评家。的createCritic
函数是一个可选的helper函数,它定义了批评家。
函数obj = LQRCustomAgent (Q, R, InitialK)检查输入参数的数量narginchk (3,3);调用抽象类构造函数obj = obj@rl.agent.CustomAgent ();设置Q和R矩阵obj。问= Q; obj.R = R;定义观察和动作空间obj。ObservationInfo = rlNumericSpec([大小(Q, 1), 1]);obj。一个ctionInfo = rlNumericSpec([size(R,1),1]);%创建批评家obj。评论家= createCritic (obj);初始化增益矩阵obj。K= InitialK;初始化经验缓冲区obj。YBuffer = 0 (obj.EstimateNum, 1);num = size(Q,1) + size(R,1);obj。HBuffer = 0 (obj.EstimateNum, 0.5 * num * (num + 1));obj。KBuffer = cell(1,1000); obj.KBuffer{1} = obj.K;结束
演员和评论家
如果您的学习算法使用一个批评家来估计长期奖励,一个参与者来选择一个动作,或者两者都使用,那么您必须将这些添加为代理属性。然后,在创建代理时必须创建这些对象;也就是说,在构造函数中。有关创建演员和评论家的更多信息,请参见创建政策和价值功能.
例如,自定义LQR代理使用存储在评论家
财产,没有演员。批评家的创建是在createCritic
方法中调用的Helper函数LQRCustomAgent
构造函数。
函数批评家= createccritical (obj) nQ = size(obj. q,1);nR =大小(obj.R, 1);n = nQ + nR;的w0 = 0.1 * (0.5 * (n + 1) * n, 1);{@(x,u) computeQuadraticBasis(x,u,n),w0},...getObservationInfo (obj) getActionInfo (obj));critic.Options.GradientThreshold = 1;结束
在这种情况下,批评家是一个rlQValueFunction
对象。要创建此对象,必须指定自定义基函数的句柄,在本例中是computeQuadraticBasis
函数。有关更多信息,请参见培训自定义LQR代理.
所需的功能
要创建自定义强化学习代理,必须定义以下实现函数。要在自己的代码中调用这些函数,请使用抽象基类中的包装器方法。例如,调用getActionImpl
,使用getAction
.包装器方法具有与实现方法相同的输入和输出参数。
函数 | 描述 |
---|---|
getActionImpl |
通过评估给定观察的代理策略来选择操作 |
getActionWithExplorationImpl |
使用代理的探索模型选择一个操作 |
learnImpl |
从当前的经验中学习,用探索回报行动 |
在实现函数中,要评估演员和评论家,可以使用getValue
,getAction
,getMaxQValue
功能。
评估一个
rlValueFunction
批评家,只需要观测输入,就可以得到当前观测值V
使用下面的语法。V = getValue(评论家,观察);
评估一个
rlQValueFunction
临界时,您需要观察和操作输入,并且可以获得当前状态操作的值问
使用下面的语法。Q = getValue(评论家,(观察、行动));
评估一个
rlVectorQValueFunction
临界时只需要观测值的输入,就可以得到当前观测值问
对于使用以下语法的所有可能的离散操作。Q = getValue(评论家,观察);
对于一个离散的动作空间
rlQValueFunction
,得到最大Q状态动作值函数问
对于使用以下语法的所有可能的离散操作。[MaxQ, MaxActionIndex] = getMaxQValue(评论家,观察);
要评价一个参与者,就要获得该行为
一个
使用下面的语法。一个= getAction(演员、观察);
对于每一种情况,如果您的参与者或评论家网络使用循环神经网络,函数也可以在获得相应的网络输出后返回网络状态的当前值。
getActionImpl
函数
的getActionImpl
函数计算代理的策略并选择操作。此函数必须具有以下签名,其中obj
是代理对象,观察
是目前的观察,和行动
所选操作。
函数action = getActionImpl (obj,观察)
对于自定义LQR代理,可以通过应用u= -Kx控制律。
函数action = getActionImpl (obj,观察)给定系统的当前状态,返回一个操作action = -obj.K *观察{:};结束
getActionWithExplorationImpl
函数
的getActionWithExplorationImpl
函数使用代理的探索模型选择一个操作。使用这个函数,您可以实现诸如贪婪探查之类的算法。此函数必须具有以下签名,其中obj
是代理对象,观察
是目前的观察,和行动
所选操作。
函数action = getActionWithExplorationImpl (obj,观察)
对于自定义LQR代理,则getActionWithExplorationImpl
函数向使用当前代理策略选定的操作添加随机白噪声。
函数action = getActionWithExplorationImpl (obj,观察)给定当前的观察结果,选择一个动作action = getAction (obj,观察);为动作添加随机噪声。num =大小(obj.R, 1);动作=动作+ 0.1*randn(num,1);结束
learnImpl
函数
的learnImpl
函数定义代理如何从当前经验中学习。这个函数通过更新策略参数和选择具有探索功能的动作来实现代理的自定义学习算法。此函数必须具有以下签名,其中obj
是代理对象,经验值
是目前的代理经验,和行动
所选操作。
函数action = learnImpl (obj,经验值)
代理体验是单元格数组exp ={状态、动作、奖励、nextstate结束}
.
状态
是目前的观察结果。行动
是当前动作。奖励
是当前的奖励。nextState
这是下一个观察结果。结束
是指示训练集已完成的逻辑标志。
对于自定义LQR代理,每次更新临界参数N
步骤。
函数action = learnImpl (obj,经验值)%解析经验输入x = exp {1} {1};u = exp {2} {1};dx = exp {4} {1};y = (x ' * obj。问*x + u'*obj.R*u); num = size(obj.Q,1) + size(obj.R,1);在更新批评家参数之前等待N步N = obj.EstimateNum;h1 = computeQuadraticBasis (x, u, num);h2 = computeQuadraticBasis (dx, -obj.K * dx, num);H = h1 - obj。γ* h2;如果obj。obj.YBuffer(obj.Counter) = y;obj.HBuffer (obj.Counter:) = H;obj。Counter = obj。计数器+ 1;其他的更新批号参数%的经验H_buf = obj.HBuffer;y_buf = obj.YBuffer;θ= (H_buf ' * H_buf) \ H_buf * y_buf;obj。评论家= setLearnableParameters (obj.Critic{θ});根据新的临界参数推导出新的增益矩阵obj。K= getNewK(obj);重置经验缓冲obj。Counter = 1;obj。YBuffer = 0 (N, 1);obj。HBuffer = 0 (N, 0.5 * num * (num + 1));obj。KUpdate = obj.KUpdate + 1; obj.KBuffer{obj.KUpdate} = obj.K;结束找到并返回一个带有探索的动作。action = getActionWithExploration (obj, exp {4});结束
可选功能
可以选择在训练开始时定义如何重置代理resetImpl
函数具有以下函数签名,其中obj
是代理对象。使用此函数,可以在训练前将代理设置为已知或随机的条件。
函数resetImpl (ob)
此外,您还可以根据需要在自定义代理类中定义任何其他帮助函数。例如,自定义LQR代理定义了一个createCritic
函数用于创建批评家和getNewK
由训练过的临界参数得到反馈增益矩阵的函数。
创建自定义代理
定义自定义代理类之后,在MATLAB工作区中创建它的实例。例如,要创建自定义LQR代理,请定义问
,R
,InitialK
值并调用构造函数。
Q =[10 3 1; 3、5、4、1、4、9];R = 0.5 *眼(3);K0 =地方(A, B, [0.4, 0.8, 0.5]);代理= LQRCustomAgent (Q, R, K0);
在验证环境对象之后,您可以使用它来训练强化学习代理。有关训练自定义LQR代理的示例,请参见培训自定义LQR代理.