[시리즈] 강화학습 톺아보기

🎮

[시리즈] 강화학습 톺아보기

Category

강화학습

Tags

Reinforcement Learning

Published

January 28, 2021

Author

Jay

방학이 어느새 1달여가 다 되어가는 시점이다.. 😥

1달간의 잉여생활을 청산하기 위해, 서점에 들러 강화학습 도서를 집었다. 원래는 CS234를 도전해보려 했으나, 미약한 영어실력 및 충전된 잉여력으로 인해 1강을 채 못 끝내었다는 불편한 진실..을 뒤로 하고, 코드와 함께 있는 이 도서를 정독해보기로 마음먹었다. 아무래도 나는 코드가 없으면 재미를 못느끼는 타입인가 보다. 암튼. 이 책 만큼은 끝까지 도달하기를 진심진심으로 바란다. (교보문고에서 무려 2만 8천원을 고대로 내고 사왔다!)

📖 Content

강화학습 개요

MDP(Markov Decision Process)

가치함수와 벨만방정식

그리드월드와 다이내믹 프로그래밍

정책 이터레이션, 가치 이터레이션

강화학습과 정책평가

강화학습 알고리즘

📁 Posts

(1) 강화학습 개요

(1) 강화학습 개요

강화학습이란 무엇인지, 탄생한 배경부터 주로 사용하는 용어까지 살펴보자. 강화학습이 풀고자하는 문제는 무엇이며, 순차적 행동 결정 문제란 무엇인지 톺아보자.

Reinforcement Learning

(2) MDP(Markov Decision Process)

(2) MDP(Markov Decision Process)

마르코프 결정 과정(MDP)의 정의부터 상태(State), 행동(Action), 보상함수(Reward Function), 할인율(Discount Factor), 정책(Policy) 등 핵심적인 개념을 톺아보자.

Reinforcement Learning

(3) 가치함수와 벨만방정식

(3) 가치함수와 벨만방정식

앞 장에서 문제를 MDP로 정의하는 방식에 대해 살펴보았다. 이제 본격적으로 가치함수와 큐함수, 벨만 기대 방정식과 벨만 최적 방정식에 대해 톺아보자.

Reinforcement Learning

bellman equation

(4) 그리드월드와 다이내믹 프로그래밍

(4) 그리드월드와 다이내믹 프로그래밍

강화학습에서의 다이내믹 프로그래밍의 정의에 대해 알아보고, 이를 기반으로 그리드 월드 예제 문제를 톺아보자.

Reinforcement Learning

Dynamic Programming

(5) 정책 이터레이션, 가치 이터레이션

(5) 정책 이터레이션, 가치 이터레이션

정책 이터레이션(Policy Itertaion)과 가치 이터레이션(Value Iteration)에 대해 살펴보자. 또한 다이나믹 프로그래밍의 한계와 모델없이 학습하는 강화학습 등에 대해 톺아보자.

Reinforcement Learning

Policy Iteration

Value Iteration

(6) 강화학습과 정책평가

(6) 강화학습과 정책평가

사람의 학습 방법과 강화학습의 학습 방법은 정확히 무엇이 다를까? 몬테카를로 근사(Monte-Carlo Prediction)과 시간차 예측(Temporal-Difference Prediction)을 톺아보자.

Reinforcement Learning

Policy Evaluation

(7) 살사(SARSA)와 큐러닝(Q-Learning)

(7) 살사(SARSA)와 큐러닝(Q-Learning)

살사(SARSA)와 큐러닝(Q-Learning) 그리고 각각의 코드를 살펴보자. 마지막으로 온폴리시 정책과 오프폴리시 정책의 차이에 대해서 톺아보자.

Reinforcement Learning