强化学习工具箱

强化学习工具箱

강화학습을사용하여정책을설계하고훈련할수있습니다。

시작하기:

강화학습에이전트

강화학습에이전트를생성하고구성하여MATLAB및仿真软件에서정책을훈련할수있습니다。내장된강화학습알고리즘을사용하거나사용자지정강화학습알고리즘을개발할수있습니다。

강화학습알고리즘

DQN(Deep Q-network), DDPG(Deep deterministic policy gradient), PPO(proximal policy optimization)및기타내장알고리즘을사용하여에이전트를만들수있습니다。템플릿을사용하여정책을훈련시키는사용자지정에이전트를개발할수있습니다。

Sarsa, sac, DDPG및기타다양한훈련알고리즘。

强化学习工具箱에서사용가능한훈련알고리즘。

强化学习设计器앱

대화형방식으로강화학습에이전트를설계,훈련,시뮬레이션할수있습니다。향후사용및배포를위해훈련된에이전트를matlab으로내보낼수있습니다。

심층신경망을사용한정책및가치함수현

대규모상태-행동공간을사용하는복잡한시스템의경우深度学习工具箱의계층을사용하거나대화형방식의심층신경망디자이너를통해심층신경망정책을프로그래밍방식으로정의할수있습니다。또는툴박스에서제하는기본네트워크아키텍처를사용할수도있습니다。모방학습으로정책을초기화하여훈련을가속화할수있습니다。다른딥러닝프레임워크와의상호운용성을위해ONNX모델을가져오고내보낼수있습니다。

Simulink의단일에이전트및다중에이전트강화학습

RL代理블록을사용하여仿真软件에서강화학습에이전트를만들고훈련할수있습니다。여러개의RL代理블록인스턴스를사용하여仿真软件에서동시에여러에이전트를훈련(다중에이전트강화학습)할수있습니다。

RL Agent블록을사용한Simulink모델。

Simulink의강화학습에이전트블록。

환경모델링

MATLAB및Simulink환경모델을만들수있습니다。시스템동특성을설명하고훈련에이전트에관측값및보상신호를제공할수있습니다。

Simulink및Simscape환경

Simulink및Simscape™를사용하여환경모델을만들수있습니다。모델내에서관측값,행동및보상신호를지정할수있습니다。

이족보행로봇을위한Simulink환경모델。

이족보행로봇을위한Simulink환경모델。

MATLAB환경

Matlab함수와클래스를사용하여환경을모델링할수있습니다。Matlab파일내에서관측값,행동및보상변수를지정할수있습니다。

3 .자유도로켓을위한matlab환경。

3 .자유도로켓을위한matlab환경。

훈련가속화

Gpu,클라우드및분산컴퓨팅리소스를사용하여훈련속도를높일수있습니다。

여러시뮬레이션을병렬로실행하여훈련속도를높이는데사용된여러워커의블록다이어그램

병렬연산을사용하여훈련속도를높입니다。

GPU가속

고성능英伟达®Gpu를사용하여심층신경망훈련및추론속도를높일수있습니다。并行计算工具箱와대부분의计算能力3.0이상Cuda지원nvidia gpu와함께matlab을사용할수있습니다。

Gpu하드웨어。

Gpu를사용하여훈련을가속화합니다。

코드생성및배포

훈련된정책을임베디드기기에배포하거나광범위한프로덕션시스템과통합할수있습니다。

코드 생성

GPU编码器™를사용하면훈련된정책을표현하는MATLAB코드에서최적화된CUDA코드를생성할수있습니다。MATLAB编码器™를사용하여정책배포를위한c / c++코드를생성할수있습니다。

GPU编码구성화면。

GPU编码器를사용하여CUDA코드를생성합니다。

MATLAB编译器지원

MATLAB编译器™MATLAB编译器SDK™를사용하여훈련된정책을독립형응용프로그램,C / c++공유라이브러리,微软®.NET어셈블리,Java®클래스및Python®패키지로배포할수있습니다。

독립형응용프로그램을만들기위한MATLAB编译器화면。

정책을독립형프로그램으로패키징하고공유합니다。

참조 예제

로봇공학,자율주행,보정,스케줄링및기타응용사례를위한제어기와의사결정알고리즘을설계할수있습니다。

조정,보정및스케줄링

조정,보정및스케줄링응용사례를위한강화학습정책을설계할수있습니다。

세개의펌프,저수지및탱크가있는상수관망시스템。

상수관망시스템의리소스할당문제。

강화학습비디오시리즈

강화학습비디오시리즈

이비디오시리즈를통해강화학습에대해자세히알아볼수있습니다。

Baidu
map