로그인 바로가기
하위 메뉴 바로가기
본문 바로가기
검색
로그인 / 회원가입
강화학습 2
KAIST 산업및시스템공학과 신하용 교수님
공유하기
URL복사
밴드
페이스북
트위터
강화학습 2
강화학습 2
http://kooc.kaist.ac.kr/reinforcement-learning2/lecture/1249974/
좋아요
83
수강생
300
전체 메뉴 열기
하위 메뉴
강의
강좌 전체목록보기
8. Deep Q Network
Neural net
NN for RL
DQN
DQN 개선
Quiz 8
9. Policy based RL : Stochastic Policy Gradient
Policy based RL
Policy gradient theorem
Policy gradient algorithms
Quiz 9
10. Policy based RL : TRPO, PPO
Revisiting policy gradient
Trust region policy optimization (TRPO) algorithm
Proximal Policy Optimization (PPO) algorithm
Quiz 10
11. Policy based RL : DPG, DDPG, CEM
Theoretical foundation of DPG
DPG & DDPG algorithms
Derivative free method and CEM
Quiz 11
12. Exploration vs Exploitation
Multi-Armed Bandit problem
Basic MAB algorithm
Advanced MAB algorithms
Quiz 12
13. Average reward MDP and finite horizon MDP
Average reward RL
Finite horizon MDP
Finite horizon MDP examples
Quiz 13
14. AlphaGo & Reward shaping
Components of AlphaGo
Training AlphaGo and MCTS
AlphaGo Zero and next
Reward shaping
Quiz 14
토론
DPG & DDPG algorithms
공유하기
URL복사
밴드
페이스북
트위터
DPG & DDPG algorithms - KOOC 담당자
DPG & DDPG algorithms - KOOC 담당자
좋아요 3
연관 토론
페이지 이동
First
이전
다음
Last
수강완료
수강이 완료되었습니다.
닫기
수강이 완료되었습니다.
이제
다음 강의
를 확인하세요.
닫기
닫기
Theoretical foundation of DPG
Derivative free method and CEM