로그인 바로가기
하위 메뉴 바로가기
본문 바로가기
검색
로그인 / 회원가입
강화학습 1
KAIST 산업및시스템공학과 신하용 교수님
공유하기
URL복사
밴드
페이스북
트위터
강화학습 1
강화학습 1
http://kooc.kaist.ac.kr/reinforcement/lecture/1180012/
좋아요
123
수강생
605
전체 메뉴 열기
하위 메뉴
강의
강좌 전체목록보기
1. Introduction
강화학습이란?
강화학습의 특징과 사례
동적 시스템
강화학습 구성요소
Quiz 1
2. Markov Decision Process
Markov Chain
Markov Reward Process
Markov Decision Process
Quiz 2
3. Dynamic Programming
Dynamic programming?
Policy evaluation
Optimal policy
Asynchronous DP
Quiz 3
4. Monte Carlo methods
Monte Carlo method 개요
Stochastic approximation
MC policy evaluation
MC control
Quiz 4
5. Temporal difference methods
TD learning 개요
TD control
Q learning
Double Q learning
Quiz 5
6. n-Step TD methods
n-step return
TD(λ) policy evaluation
Eligibility trace와 TD control
Q(λ) algorithm
Quiz 6
7. Value function approximation
Value function approximation 개요
Features for VFA
Application of VFA : Cartpole
Linear VFA for Cartpole
Quiz 7
토론
Markov Chain
공유하기
URL복사
밴드
페이스북
트위터
Markov Chain - Merve
Markov Chain - Merve
좋아요 6
연관 토론
페이지 이동
First
이전
다음
Last
수강완료
수강이 완료되었습니다.
닫기
수강이 완료되었습니다.
이제
다음 강의
를 확인하세요.
닫기
닫기
Quiz 1
Markov Reward Process