15:52视频长度为15:52。
行走机器人的深度强化学习
从系列:建模、仿真与控制“,
Sebastian Castro演示了一个使用深度强化学习控制类人机器人运动的例子,特别是深度确定性策略梯度(DDPG)算法。使用Simscape Multibody™对机器人进行仿真,同时使用Reinforcement Learning Toolbox™对控制策略进行训练。
在这个视频中,Sebastian概述了使用Simulink进行强化学习的设置、训练和评估®模型。首先,他介绍了如何选择强化学习问题的状态、动作和奖励函数。然后描述了神经网络的结构和训练算法参数。最后,他展示了一些训练结果,并讨论了强化学习的优点和缺点。
你可以在视频中找到使用的例子模型MATLAB中央文件交换.
有关更多信息,您可以访问以下资源:
您也可以从以下列表中选择网站:
如何获得最佳的网站性能
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。