强化学习工具箱

強化学習エ,ジェント

MATLABや仿真软件で方策を学習させるための強化学習エージェントの作成および構成を行います。組み込みの強化学習アルゴリズムを使用するか,カスタムの強化学習アルゴリズムを開発します。

強化学習アルゴリズム

深Q-Network (DQN),深層決定論的方策勾配法(DDPG),近傍方策最適化(PPO)などの組み込みアルゴリズムを使用して,エージェントを作成します。テンプレ,トを使用して,方策の学習のためのカスタムエ,ジェントを開発します。

さまざまな学習アルゴリズム(sarsa, sac, ddpgなど)。

强化学习工具箱で使用できる学習アルゴリズム。

強化学習デザ▪▪ナ▪▪アプリ

強化学習エ,ジェントの設計,学習,シミュレ,ションを対話的に行います。後で使用したり展開できるように,学習済みのエ,ジェントをmatlabにエクスポ,トします。

ディ,プニュ,ラルネットワ,クによる方策と価値関数の表現

大きな状態行動空間を持つ複雑なシステムでは,ディープニューラルネットワークの方策をプログラムで定義します。この場合,深度学习工具箱の層を使用するか,ディプネットワクデザナを使用して対話的に定義します。または,このキテクチャを使用します。模倣学習を使用して方策を初期化し,学習を高速化します。他のディープラーニングフレームワークとの相互運用のためにONNXモデルのインポートおよびエクスポートを行います。

Simulinkによるシングルエ,ジェントおよびマルチエ,ジェントの強化学習

仿真软件でRL代理ブロックを使用して,強化学習エージェントの作成と学習を行います。动态仿真模块で RL Agent ブロックの複数のインスタンスを使用して、複数のエージェントの学習を同時に行います (マルチエージェントの強化学習)。

RL代理ブロックを使用したSimulinkモデル。

Simulink用の強化学習エ,ジェントブロック。

環境のモデル化

MATLABおよびSimulinkの環境モデルを作成します。システムダ@ @ナミクスを記述し,エ@ @ジェントの学習のための観測信号と報酬信号を指定します。

SimulinkおよびSimscape環境

SimulinkおよびSimscape™を使用して,環境のモデルを作成します。モデル内で観測信号,行動信号,報酬信号を指定します。

二足歩行ロボットのためのSimulink環境モデル。

二足歩行ロボットのためのSimulink環境モデル。

Matlab環境

Matlabの関数やクラスを使用して,環境をモデル化します。MATLABファイル内で、観測変数、行動変数、報酬変数を指定します。

3自由度のロケット向けmatlab環境。

3自由度のロケット向けmatlab環境。

学習の高速化

Gpu,クラウド,分散コンピュ,ティングリソ,スを使用して学習を高速化します。

分散コンピュ,ティングおよびマルチコアによる高速化

学習を高速化するために,并行计算工具箱MATLAB并行服务器を使用して,マルチコアコンピューター,クラウドリソース,または計算クラスター上で並列シミュレーションを実行します。

複数のシミュレ,ションを並行実行して学習を高速化するために使用されるマルチワ,カ,のブロック線図。

並列計算を使用して,学習を高速化。

Gpuによる高速化

高性能なnvidia®Gpuを使用して,ディ,プニュ,ラルネットワ,クの学習と推論を高速化します。并行计算工具箱と共に,计算能力3.0以上のほとんどのcuda対応nvidia gpuでmatlabを使用できます。

Gpuハ,ドウェア。

Gpuを使用した学習の高速化。

コ,ドの生成と展開

学習済みの方策を,組み込みデバaaplスに展開したり,さまざまな実稼働システムに統合できます。

コ,ド生成

学習済みの方策を表現するmatlabコ,ドから最適化されたcudaコ,ドを生成するにはGPU编码器™を使用します。方策を展開するためのc / c++コドの生成にはMATLAB编码器™を使用します。

GPU编码器構成画面。

GPU编码器を使用したCUDAコ,ドの生成。

MATLAB编译器のサポ,ト

MATLAB编译器™MATLAB编译SDK™を使用して,学習済みの方策をスタンドアロンのアプリケーション,C / c++共有ライブラリ,微软®.NETアセンブリ,Java®クラス,Python®パッケ,ジとして展開します。

スタンドアロンアプリケ,ションを作成するためのMATLAB编译器画面。

方策をスタンドアロンのプログラムとしてパッケ,ジ化して共有。

参照例

ロボティクス,自動運転,キャリブレーション,スケジューリングなどの用途向けにコントローラーや意思決定アルゴリズムを設計します。

調整,キャリブレ,ション,およびスケジュ,リング

調整,キャリブレ,ション,およびスケジュ,リングの用途向けに強化学習方策を設計します。

3台のポンプ,貯留層,タンクを備えた配水システム。

配水のリソ,ス割り当ての問題。

Baidu
map