基于图像数据的倒立摆强化学习

使用强化学习工具箱™和DQN算法对简单摆进行基于图像的反演。工作流包括以下步骤:1)创建环境，2)指定策略表示，3)创建代理，4)训练代理，5)验证训练后的策略。

所提供的钟摆环境具有预定义的观察、操作和奖励。动作包括五个可能的扭矩值，观察包括一个50x50的灰度图像以及钟摆的角度速率，奖励是到期望的向上位置的距离。学习如何使用深度网络设计器应用程序构建q -函数的神经网络表示，DQN代理使用它来近似长期奖励。

看看如何在训练过程中可视化摆的行为，并监控训练进度。训练完成后，在模拟中验证策略，以决定是否需要进一步的训练。