본문 바로가기

인공지능/이론

(1)

MDP(마르코프 결정 과정)에 대해서 오늘은 강화학습에 들어가는 MDP에 대해서 간단히 알아볼려고 합니다. 먼저 사전 조사해본 결과 많은 분들이 MDP에 대해서 설명을 해놓으신 분들이 많더라구요 강화학습도 많은 분들이 관심을 가지시는 것 같습니다. 하지만 대부분의 글이 사전적인 의미 같이 조사를 해놓으신거 같아 좀 쉽게 설명하고 싶어서 열심히 해보도록 하겠습니다. MDP는 이산 시간 확률적 제어 과정으로 결과가 부분적으로 무작위이고 부분적으로 의사 결정자의 통제를 받는 상황에서 선택(의사 결정)을 모델링 하기 위한 수학적 프레임 워크를 제공합니다. 그래서 MDP는 동적 프로그래밍, 강화학습을 통해 해결 된 최적화 문제를 연구하는데 유용합니다. 로봇 공학, 자동 제어뿐만 아니라 품질관리같이 경제나 제조를 포함하여 범용적으로 사용되고 있습니다...

이전 1 다음

티스토리툴바