基于图像数据的倒立摆强化学习

使用Reinforcement Learning Toolbox™和DQN算法对一个简单摆进行基于图像的反演。工作流由以下步骤组成:1)创建环境，2)指定策略表示，3)创建代理，4)训练代理，5)验证训练过的策略。

所提供的钟摆环境具有预定义的观察、操作和奖励。动作包括5个可能的扭矩值，观察结果包括一个50x50灰度图像以及钟摆的角速率，奖赏是到期望向上位置的距离。学习如何使用Deep Network Designer app构建q函数的神经网络表示，DQN代理使用该函数来近似长期奖励。

看看如何在训练过程中可视化摆的行为，并监控训练进度。训练完成后，在模拟中验证策略，以决定是否需要进一步训练。