로그인 바로가기 하위 메뉴 바로가기 본문 바로가기

강화학습 1

임시 이미지 KAIST 산업및시스템공학과 신하용 교수님
http://kooc.kaist.ac.kr/reinforcement/forum/136325
좋아요 123 수강생 606

강의 내용 중,

"If a polity pi is given to MDP, than it becoms a Markov Reward Process." 라는 내용이 있는데,

"If a polity pi is given to MRP, than it becoms a Markov Decision Process." 가 맞는 내용 아닐까요?


앞 페이지에서는 MDP is an MRP with decision이라고 되어 있어서요...