5:04视频长度是5:04
强化学习与图像数据的倒立摆
利用强化学习工具箱™和DQN算法来执行基于图像反演单摆。工作流程包括以下步骤:1)创建环境,2)指定政策表示,3)创建代理,4)培训代理,和5)验证培训政策。
提供的钟摆环境预定义的观察,行动,和奖励。操作包括五个可能的转矩值,观察包括50×50灰度图像以及摆的角速率,奖励是向上的距离所需的位置。学习如何使用深层网络设计师应用构造的神经网络表示Q-function, DQN代理使用的近似的长期回报。
看看你可以想象钟摆行为在培训期间,和监控培训的进展。培训完成后,验证政策模拟进一步决定是否训练是必要的。
您可以在欧什一张网站来自der folgenden Liste auswahlen:
所以erhalten您死bestmogliche Leistung der汪汪汪的网站
民意调查您毛皮死bestmogliche Website-Leistung死网站中国毛皮(auf Chinesisch奥得河Englisch)。安德利果汁landesspezifische网站冯MathWorks信德毛皮Besuche冯Ihrem Standort来自不optimiert。
欧罗巴