백정
강의 내용 중,
"If a polity pi is given to MDP, than it becoms a Markov Reward Process." 라는 내용이 있는데,
"If a polity pi is given to MRP, than it becoms a Markov Decision Process." 가 맞는 내용 아닐까요?
앞 페이지에서는 MDP is an MRP with decision이라고 되어 있어서요...
comment