심층강화학습

심층강화학습은머신러닝의한부류로서,로봇및자율시스템같은복잡한시스템의제어기및의사결정시스템을구현할수있습니다。심층강화학습을통해물리적시스템또는시뮬레이션된시스템에서동적으로생성되는데이터로훈련하여복잡한행동을학습할수있는심층신경망을구현할수있습니다。다른머신러닝기법과달리미리정의된레이블지정또는미지정훈련데이터셋이불필요합니다。일반적으로는환경을현하는시뮬레이션모델만있으면됩니다。

MATLAB®,仿真软件®强化学习工具箱™를사용하여의사결정시스템을설계하고배포하는전체워크플로를진행할수있습니다。다음과같은작업을수행할수있습니다。

  • 간단한제어시스템,자율시스템,로봇공학및스케줄링문제에대한예제를사용하여심층강화학습시작
  • 약간의코드변경만으로널리사용되는강화학습알고리즘을빠르게전환,평가및비교
  • MATLAB또는Simulink에서환경모델링
  • 심층신경망을사용하여영상,비디오및센서데이터를바탕으로복잡한심층강화학습정책정의
  • 로컬코어또는클라우드를통해여러시뮬레이션을병렬로실행하여더빠르게정책훈련
  • 임베디드기기에심층강화학습정책배포
강화학습다이어그램

심층강화학습에이전트

심층강화학습에이전트는입력상태를출력행동에매핑하는심층신경망정책과이정책을업데이트하는알고리즘으로구성됩니다。널리사용되는알고리즘의예로는DQN(深度q -网络),DDPG(深度确定性政策梯度),SAC(软行为批评家)및PPO(近端政策优化)가있습니다。알고리즘은환경으로부터수집된관측값과보상을기반으로정책을업데이트하여장기기대보상을최대화합니다。

强化学习工具箱를사용하면심층강화학습에이전트를프로그래밍방식으로,또는강화학습디자이너앱을통해대화형방식으로만들수있습니다。바로제공되는널리사용중인알고리즘중에서선택하거나사용가능한템플릿과예제를사용하여직접사용자지정알고리즘을구현할수있습니다。

강화학습다이어그램

자세히알아보기

MATLAB및Simulink에서의환경모델링

심층강화학습알고리즘을사용한훈련은에이전트가주변환경과상호작용하는동적공정입니다。로봇공학및자율시스템같은응용분야의경우실제하드웨어로이훈련을수행하려면많은비용이들고위험할수있습니다。따라서심층강화학습에는시뮬레이션을통해데이터를생성하는가상의환경모델이훨씬더선호됩니다。

시스템동특성,해당동특성이에이전트의행동에의해받는영향및행동의적합성을평가하는보상을설명하는환경의모델을MATLAB및仿真软件에서구축할수있습니다。이러한모델은연속모델또는이산모델일수있으며다양한충실도수준에서시스템을표현할수있습니다。또한시뮬레이션을병렬화하여훈련속도를높일수도있습니다。몇몇경우에는시스템의기존MATLAB및仿真软件모델을약간만수정하여심층강화학습에재사용할수있습니다。

자세히알아보기

MATLAB및Simulink에서의환경모델링

예제및참조응용사례

역진자균형유지,Grid-World탐색문제,카트-폴시스템균형유지와같은간단한문제에대한정책을훈련시켜심층강화학습을시작할수있습니다。또한자율주행차량의적응순항제어,차선유지보조기능을위한시스템을설계할수도있습니다。심층강화학습은궤도계획등의로봇공학응용분야,보행등의동작교육에사용할수도있습니다。

강화학습다이어그램

자세히알아보기

Baidu
map