본문 바로가기

인공지능/이론

MDP(마르코프 결정 과정)에 대해서

반응형

오늘은 강화학습에 들어가는 MDP에 대해서 간단히 알아볼려고 합니다. 

먼저 사전 조사해본 결과 많은 분들이 MDP에 대해서 설명을 해놓으신 분들이 많더라구요 강화학습도 많은 분들이 관심을 가지시는 것 같습니다. 하지만 대부분의 글이 사전적인 의미 같이 조사를 해놓으신거 같아 좀 쉽게 설명하고 싶어서 열심히 해보도록 하겠습니다.

 

MDP는 이산 시간 확률적 제어 과정으로 결과가 부분적으로 무작위이고 부분적으로 의사 결정자의 통제를 받는 상황에서 선택(의사 결정)을 모델링 하기 위한 수학적 프레임 워크를 제공합니다.

그래서 MDP는 동적 프로그래밍, 강화학습을 통해 해결 된 최적화 문제를 연구하는데 유용합니다. 로봇 공학, 자동 제어뿐만 아니라 품질관리같이 경제나 제조를 포함하여 범용적으로 사용되고 있습니다.

 

마르코프 결정 과정 MDP는 이산 시간 확률 제어 과정인데 즉 불확실한 상황에서 의사결정을 하려면 "확률"을 기반으로 분석한다는 의미입니다 MDP를 진행하려면 수행하는 에이전트(Agent), 주워진 환경(Evironment)이 서로 상호작용 해야합니다.

 

먼저 에이전트에게는 환경으로 부터 현재 상태(어디까지 진행했는가)를 받고, 에이전트는 이 상태와 경험에 기반에 행동(어디로 나아갈려는가)를 선택합니다 에이전트가 선택한 행동을 기반으로, 환경은 새로운 상태를 주고 또한 이 행동을 기반으로 보상(reward)를 줍니다.

 

다음부터는 단단한 강화학습이라는 책 기반으로 강화학습에 대해 더 공부해보도록 합시다 감사합니다.

 

반응형
LIST