强化学习与图像数据的倒立摆

利用强化学习工具箱™和DQN算法来执行基于图像反演单摆。工作流程包括以下步骤:1)创建环境,2)指定政策表示,3)创建代理,4)培训代理,和5)验证培训政策。

提供的钟摆环境预定义的观察,行动,和奖励。操作包括五个可能的转矩值,观察包括50×50灰度图像以及摆的角速率,奖励是向上的距离所需的位置。学习如何使用深层网络设计师应用构造的神经网络表示Q-function, DQN代理使用的近似的长期回报。

看看你可以想象钟摆行为在培训期间,和监控培训的进展。培训完成后,验证政策模拟进一步决定是否训练是必要的。