主要内容

用预训练的Actor网络训练DDPG Agent

本例展示了如何在Simulink中训练深度确定性策略梯度(DDPG)代理进行车道保持辅助(LKA)。为了使训练更有效,DDPG代理的参与者使用先前使用监督学习训练的深度神经网络进行初始化。这个演员受过训练模拟MPC控制器的车道保持辅助的例子。

有关DDPG代理的更多信息,请参见深度确定性策略梯度(DDPG)代理

仿真软件模型

车道保持应用的训练目标是通过调整前转向角度,使车辆沿着a车道的中心线行驶。这个例子使用相同的自我车辆动力学和传感器动力学培训DQN代理保持车道辅助的例子。

M = 1575;车辆总质量百分比(kg)Iz = 2875;%横摆惯性矩(mNs^2)Lf = 1.2;重心到前轮纵向距离% (m)Lr = 1.6;重心到后轮纵向距离% (m)Cf = 19000;前轮胎转弯刚度% (N/rad)Cr = 33000;后轮胎转弯刚度% (N/rad)Vx = 15;纵向速度% (m/s)

定义采样时间,Ts,模拟持续时间,T,几秒钟。

Ts = 0.1;T = 15;

LKA系统的输出是自我车辆的前转向角。考虑到自我车辆的物理限制,将其转向角度限制在[-60,60]度范围内。以弧度为单位指定约束。

U_min = -1.04;U_max = 1.04;

定义道路的曲率为常数0.001( - 1 ).

Rho = 0.001;

设置横向偏差的初始值(e1_initial)和相对偏航角(e2_initial).在训练期间,这些初始条件被设置为每个训练集的随机值。

E1_initial = 0.2;E2_initial = -0.1;

打开模型。

mdl =“rlActorLKAMdl”;open_system (mdl)

在模型中定义RL代理块的路径。

Agentblk = [mdl .' / RL代理'];

创建环境

为自我飞行器创建一个强化学习环境界面。为此,首先定义观察和操作规范。这些观察和行为与中使用的监督学习的特征相同模拟MPC控制器的车道保持辅助

环境的六个观测值是横向速度 v y ,偏航率 ψ ˙ ,横向偏移 e 1 ,相对偏航角 e 2 ,前一步转向角度 u 0 ,曲率 ρ

observationInfo = rlNumericSpec([6 1],...LowerLimit =无穷*的(6,1),...UpperLimit =正*的(6,1))
observationInfo = rlNumericSpec with properties: LowerLimit: [6x1 double] UpperLimit: [6x1 double]名称:[0x0 string]描述:[0x0 string]尺寸:[6 1]DataType: "double"
observationInfo。Name =“观察”

对环境的作用是前转向角。在创建动作规范对象时指定转向角度约束。

actionInfo = rlNumericSpec([1 1],...LowerLimit = u_min,...UpperLimit = u_max);actionInfo。Name =“转向”

在模型中,Signal Processing for LKA块创建观测向量信号,计算奖励函数,并计算停止信号。

奖励 r t ,在每个时间步提供 t ,为,其中 u 控制输入来自前一个时间步长吗 t - 1

r t - 1 0 e 1 2 + 5 e 2 2 + 2 u 2 + 5 e ˙ 1 2 + 5 e ˙ 2 2

模拟在以下情况停止 | e 1 | > 1

创建强化学习环境。

env = rlSimulinkEnv(mdl,agentblk,...observationInfo actionInfo);

若要定义横向偏差和相对偏航角的初始条件,请使用匿名函数句柄指定环境重置函数。的localResetFcn函数在示例的末尾定义,它将初始横向偏差和相对偏航角设置为随机值。

env。ResetFcn = @ localResetFcn(in);

固定随机生成器种子的再现性。

rng (0)

创建DDPG代理

DDPG代理使用临界值函数表示来近似给定观察和操作的长期奖励。为了创建评论家,首先创建一个具有两个输入的深度神经网络,状态和动作,以及一个输出。有关创建深度神经网络值函数表示的更多信息,请参见创建策略和值函数

[critical,criticOptions] = createLaneKeepingCritic(...observationInfo actionInfo);

DDPG代理使用参与者表示来决定采取何种操作。为了创建参与者,首先创建一个深度神经网络,其中一个输入(观察)和一个输出(动作)。

[actor,actorOptions] = createLaneKeepingActor(...observationInfo actionInfo);

这些初始行动者和评论家网络具有随机的初始参数值。

要创建DDPG代理,首先指定DDPG代理选项。

agentOptions = rlDDPGAgentOptions(...SampleTime = Ts,...ActorOptimizerOptions = actorOptions,...CriticOptimizerOptions = criticOptions,...ExperienceBufferLength = 1 e6);agentOptions.NoiseOptions.Variance = 0.3;agentOptions.NoiseOptions.VarianceDecayRate = 1e-5;

使用指定的参与者表示、评论家表示和代理选项创建DDPG代理。有关更多信息,请参见rlDDPGAgent

agent = rlDDPGAgent(actor,批评家,agentOptions);

火车代理

作为基线,使用具有随机初始参数的参与者来训练代理。要培训代理,首先指定培训选项。对于本例,使用以下选项。

  • 跑步训练不超过50000集,每集持续时间不超过150步。

  • 在“事件管理器”对话框中显示培训进度。

  • 当插曲奖励达到-1时停止训练。

  • 为累积奖励大于-的每一集保存代理的副本2.5

有关更多信息,请参见rlTrainingOptions

Maxepisodes = 50000;maxsteps = T/Ts;trainingOpts = rlTrainingOptions(...MaxEpisodes = MaxEpisodes,...MaxStepsPerEpisode = maxsteps,...Verbose = false,...情节=“训练进步”...StopTrainingCriteria =“EpisodeReward”...StopTrainingValue = 1,...SaveAgentCriteria =“EpisodeReward”...SaveAgentValue = -2.5);

培训代理使用火车函数。训练是一个计算密集的过程,需要几个小时才能完成。为了在运行此示例时节省时间,请通过设置加载预训练的代理doTraining.要亲自训练特工,请设置doTraining真正的

doTraining = false;如果doTraining培训代理。trainingStats = train(agent,env,trainingOpts);其他的为示例加载预训练的代理。负载(“ddpgFromScratch.mat”);结束

用预先训练过的演员训练特工

您可以将代理的行动者网络设置为先前训练过的深度神经网络。对于这个例子,使用深度神经网络从模拟MPC控制器的车道保持辅助的例子。该网络被训练模仿模型预测控制器使用监督学习。

加载预训练的actor网络。

负载(“imitateMPCNetActorObj.mat”“imitateMPCNetObj”);

使用预训练的参与者创建参与者表示。

监控器= rlContinuousDeterministicActor(...imitateMPCNetObj,...observationInfo,...actionInfo);

检查所使用的网络supervisedActor和上膛的是同一把。为此,使用相同的随机输入观察来评估网络和代理。

testData = rand(6,1);

评估深度神经网络。

predictImNN = predict(imitateMPCNetObj,testData');

评估参与者。

evaluateRLRep = getAction(监控器,{testData});

比较结果。

error = evaluateRLRep{:} - predictImNN . error = evaluateRLRep{:
错误=1.4901 e-08

使用预训练的参与者创建DDPG代理。

agent = rlDDPGAgent(supervisedActor,critic,agentOptions);

减少训练集的最大数量,并使用火车函数。为了在运行此示例时节省时间,请通过设置加载预训练的代理doTraining.要亲自训练特工,请设置doTraining真正的

trainingOpts。MaxEpisodes = 5000;doTraining = false;如果doTraining培训代理。trainingStats = train(agent,env,trainingOpts);其他的为示例加载预训练的代理。负载(“ddpgFromPretrained.mat”);结束

通过使用预训练的行为者网络,可以提高DDPG代理的训练效率。总训练时间和总训练步骤数都提高了大约20%。此外,接近最优结果的邻域的训练集数从大约4500减少到大约3500。

模拟DDPG Agent

为了验证经过训练的代理的性能,取消以下两行注释,并在环境中模拟它。有关代理模拟的详细信息,请参见rlSimulationOptions而且sim卡

% simOptions = rlSimulationOptions(MaxSteps= MaxSteps);% experience = sim(env,agent,simOptions);

为了检查Simulink模型中训练代理的性能,使用先前定义的初始条件(E1_initial = 0.2而且E2_initial = -0.1).

sim (mdl)

如下图所示,横向误差(中间图)和相对偏航角(底部图)均被驱动为零。车辆开始与中心线的横向偏差(0.2米)和一个非零偏航角误差(-0.1 rad)。车道保持控制器使自我车辆在大约两秒后沿中心线行驶。转向角度(上图)显示控制器在大约两秒后达到稳态。

关闭Simulink模型,不保存任何更改。

bdclose (mdl)

本地函数

函数in = localResetFcn(in)设置横向偏差的随机值。in = setVariable(in,“e1_initial”, 0.5 *(1 + 2 *兰德));设置相对偏航角的随机值。in = setVariable(in,“e2_initial”, 0.1 *(1 + 2 *兰德));结束

另请参阅

|

相关的话题

Baidu
map