강화학습

Posts

[시리즈] 강화학습 톺아보기

[시리즈] 강화학습 톺아보기

1달간의 잉여생활을 청산하기 위해, 서점에 들러 강화학습 도서를 집었다. 원래는 CS234를 도전해보려 했으나, 미약한 영어실력으로 인해 1강을 채 못 끝내었다는 불편한 진실..을 뒤로 하고, 일단 한번 살펴보자!

Reinforcement Learning

(7) 살사(SARSA)와 큐러닝(Q-Learning)

(7) 살사(SARSA)와 큐러닝(Q-Learning)

살사(SARSA)와 큐러닝(Q-Learning) 그리고 각각의 코드를 살펴보자. 마지막으로 온폴리시 정책과 오프폴리시 정책의 차이에 대해서 톺아보자.

Reinforcement Learning

(6) 강화학습과 정책평가

(6) 강화학습과 정책평가

사람의 학습 방법과 강화학습의 학습 방법은 정확히 무엇이 다를까? 몬테카를로 근사(Monte-Carlo Prediction)과 시간차 예측(Temporal-Difference Prediction)을 톺아보자.

Reinforcement Learning

Policy Evaluation

(5) 정책 이터레이션, 가치 이터레이션

(5) 정책 이터레이션, 가치 이터레이션

정책 이터레이션(Policy Itertaion)과 가치 이터레이션(Value Iteration)에 대해 살펴보자. 또한 다이나믹 프로그래밍의 한계와 모델없이 학습하는 강화학습 등에 대해 톺아보자.

Reinforcement Learning

Policy Iteration

Value Iteration

(4) 그리드월드와 다이내믹 프로그래밍

(4) 그리드월드와 다이내믹 프로그래밍

강화학습에서의 다이내믹 프로그래밍의 정의에 대해 알아보고, 이를 기반으로 그리드 월드 예제 문제를 톺아보자.

Reinforcement Learning

Dynamic Programming

(3) 가치함수와 벨만방정식

(3) 가치함수와 벨만방정식

앞 장에서 문제를 MDP로 정의하는 방식에 대해 살펴보았다. 이제 본격적으로 가치함수와 큐함수, 벨만 기대 방정식과 벨만 최적 방정식에 대해 톺아보자.

Reinforcement Learning

bellman equation

(2) MDP(Markov Decision Process)

(2) MDP(Markov Decision Process)

마르코프 결정 과정(MDP)의 정의부터 상태(State), 행동(Action), 보상함수(Reward Function), 할인율(Discount Factor), 정책(Policy) 등 핵심적인 개념을 톺아보자.

Reinforcement Learning

(1) 강화학습 개요

(1) 강화학습 개요

강화학습이란 무엇인지, 탄생한 배경부터 주로 사용하는 용어까지 살펴보자. 강화학습이 풀고자하는 문제는 무엇이며, 순차적 행동 결정 문제란 무엇인지 톺아보자.

Reinforcement Learning