强化学习工具箱™는DQN、PPO、囊및DDPG와같은강화학습알고리즘을사용하는정책을훈련시키기위한앱,함수,仿真软件®블록을제공합니다。이러한정책을사용하여자원할당,로봇공학,자율시스템과같은복잡한응용사례의제어기및의사결정알고리즘을구현할수있습니다。
이툴박스를사용하면심층신경망또는룩업테이블을사용하여정책및가치함수를표현할수있고MATLAB®또는仿真软件에서모델링된환경과의상호작용을통해이런정책과가치함수를훈련시킬수있습니다。툴박스에서제공하는단일에이전트또는다중에이전트강화학습알고리즘을평가하거나직접개발할수있습니다。앱을통한대화형방식또는프로그래밍방식으로하이퍼파라미터설정을실험하고훈련진행상황을모니터링하고훈련된에이전트를시뮬레이션할수있습니다。훈련성능을향상하기위해시뮬레이션을다중CPU、GPU,컴퓨터클러스터및클라우드에서병렬로실행할수있습니다。(并行计算工具箱및MATLAB并行服务器사용)
ONNX™모델형식을통해TensorFlow™Keras및PyTorch등의딥러닝프레임워크에서기존정책을가져올수있습니다。(深度学习工具箱™사용)최적화된C, c++, CUDA®코드를생성하여훈련된정책을마이크로컨트롤러및gpu에배포할수있습니다。툴박스에는시작을돕기위한참조예제가포함되어있습니다。
시작하기:
강화학습알고리즘
DQN(Deep Q-network), DDPG(Deep deterministic policy gradient), PPO(proximal policy optimization)및기타내장알고리즘을사용하여에이전트를만들수있습니다。템플릿을사용하여정책을훈련시키는사용자지정에이전트를개발할수있습니다。
强化学习设计器앱
대화형방식으로강화학습에이전트를설계,훈련,시뮬레이션할수있습니다。향후사용및배포를위해훈련된에이전트를matlab으로내보낼수있습니다。
Simulink의단일에이전트및다중에이전트강화학습
RL代理블록을사용하여仿真软件에서강화학습에이전트를만들고훈련할수있습니다。여러개의RL代理블록인스턴스를사용하여仿真软件에서동시에여러에이전트를훈련(다중에이전트강화학습)할수있습니다。
Simulink및Simscape환경
Simulink및Simscape™를사용하여환경모델을만들수있습니다。모델내에서관측값,행동및보상신호를지정할수있습니다。
MATLAB환경
Matlab함수와클래스를사용하여환경을모델링할수있습니다。Matlab파일내에서관측값,행동및보상변수를지정할수있습니다。
분산연산및멀티코어가속화
并行计算工具箱및MATLAB并行服务器를사용하는멀티코어컴퓨터,클라우드리소스또는연산클러스터에서병렬시뮬레이션을실행하여훈련속도를높일수있습니다。
코드 생성
GPU编码器™를사용하면훈련된정책을표현하는MATLAB코드에서최적화된CUDA코드를생성할수있습니다。MATLAB编码器™를사용하여정책배포를위한c / c++코드를생성할수있습니다。
MATLAB编译器지원
MATLAB编译器™및MATLAB编译器SDK™를사용하여훈련된정책을독립형응용프로그램,C / c++공유라이브러리,微软®.NET어셈블리,Java®클래스및Python®패키지로배포할수있습니다。
시작하기
단순진자반전、网格世界탐색,카트-폴시스템의균형잡기및일반마르코프결정과정과같은문제해결을위해강화학습정책을개발하는방법을알아볼수있습니다。
자율 주행
적응순항제어,차선유지보조및자동주차와같은자율주행응용사례를위한강화학습정책을설계할수있습니다。
로봇공학
로봇공학응용사례를위한강화학습정책을설계할수있습니다。
제품관련자료:
강화학습비디오시리즈
이비디오시리즈를통해강화학습에대해자세히알아볼수있습니다。