深入强化学习

深度强化学习是机器学习的一个分支,它使您能够为复杂系统(如机器人和自主系统)实现控制器和决策系统。深度强化学习允许您实现深度神经网络,通过模拟或物理系统动态生成的数据来训练它们,从而学习复杂的行为。与其他机器学习技术不同的是,它不需要预先定义的训练数据集,无论是标记的还是未标记的。通常,您所需要的只是一个表示您的环境的模拟模型。

使用MATLAB®,仿真软件®,强化学习工具箱™您可以运行设计和部署决策系统的完整工作流。您可以:

  • 使用简单控制系统、自主系统、机器人和调度问题的例子开始深度强化学习
  • 快速切换、评估和比较流行的强化学习算法,只需要少量的代码更改
  • 在MATLAB或Simulink中对环境建模
  • 使用深度神经网络来定义基于图像、视频和传感器数据的复杂深度强化学习策略
  • 通过使用本地核心或云并行运行多个模拟,可以更快地训练策略
  • 向嵌入式设备部署深度强化学习策略
强化学习的图

深度强化学习代理

深度强化学习代理由一个将输入状态映射到输出动作的深度神经网络策略和一个负责更新该策略的算法组成。深度q -网络(DQN)、深度确定性策略梯度(DDPG)、软行为评判(SAC)和近端策略优化(PPO)是算法的常用例子。该算法基于从环境中收集到的观察和奖励来更新策略,以最大化预期的长期奖励。

强化学习工具箱帮助您以编程方式创建深度强化学习代理,或与强化学习设计器应用程序交互。从开箱即用的流行算法中选择,或使用可用的模板和示例实现自己的自定义算法。

强化学习的图

了解更多

MATLAB和Simulink环境建模

深度强化学习算法的训练是一个动态的过程,因为智能体与周围的环境相互作用。对于机器人和自动系统等应用程序,使用实际硬件执行这种训练可能是昂贵和危险的。这就是为什么通过模拟生成数据的环境虚拟模型是深度强化学习的首选。

您可以在MATLAB和Simulink中构建一个环境模型,描述系统动态、它们如何受代理所采取的行动的影响,以及评估所执行行动的优劣的奖励。这些模型在本质上可以是连续的或离散的,并且可以以不同的保真度水平表示您的系统。此外,您可以并行化模拟以加速训练。在某些情况下,您可以重用现有的MATLAB和Simulink系统模型进行深度强化学习,只需进行最小的修改。

了解更多

MATLAB和Simulink环境建模

例子及参考应用

通过针对简单问题的训练策略,比如平衡倒立摆、解决网格世界问题和平衡车杆系统,开始深度强化学习。您还可以为自动驾驶车辆设计自适应巡航控制和车道保持辅助系统。深度强化学习还可以用于机器人应用,比如轨迹规划,以及教授行为,比如运动。

强化学习的图

了解更多

Baidu
map