티스토리 뷰

728x90

 

제 인생 첫 강화학습, 솔직히 그냥 안 하고 싶은데 그래도 일단 꾸역꾸역 시작해봅니다.

 

저는 Fundamental of Reinforcement Learning 페이지를 참고하여 공부하고 정리했습니다. 글 가장 아래에 Reference를 다시 남기도록 하겠습니다.

 

 

강화학습을 공부하면 나오는 기본 단어들

  • 에이전트(Agent), 상태(State), 행동(Action), 포상(Reward), 정책(Policy)

 

강화학습의 시작은

 

  • Trial and error
  • Optimal control

 

이 두 가지라고 합니다. 첫 번째는 시행 착오를 통해 변화한다는 특징, 두 번째는 어떤 비용함수의 비용을 최소화하도록 controler를 디자인하는 것을 의미합니다.

 

두 번째 문제는 Bellman equation(벨만 방정식)을 만들어서 풀고, 이 방법은 Dynamic Programming이라고 합니다. Bellman은 MDP(Markov Decision Process)라는 수학적 모델을 만들어서 사용합니다.

 

 

강화학습 기본 개념

Agent

  • 주어진 문제 상황에서 행동하는 주체

State

  • 상태는 현재 시점에서 상황이 어떤지 나타내는 값의 집합 $S$입니다. agent가 인식하는 자신의 상태를 의미합니다. 특정 시각 $t$에서의 상태값은 $s_t$로 적습니다.

Action

  • 행동은 우리가 취할 수 있는 선택지를 의미합니다. 가능한 모든 행동의 집합을 의미하고, $A$로 표기합니다. 마찬가지로 특정 시각 $t$에서의 행동은 $a_t$로 적습니다.

Reward

  • agent가 어떤 행동을 했을 때 따라오는 이득을 의미합니다. $R$로 나타내고, 상태 $s_t$에서 행동 $a_t$를 취했을 때, 상태가 $s_{t+1}$로 바뀌면서 얻은 보상은 $r_t$가 됩니다. 함수로 나타내면, $R:S \times A \times S \rightarrow R$ 로 나타냅니다.

Policy

  • agent가 판단하는 방식을 의미합니다. 수학적으로 나타내면 상태에 따른 행동의 조건부 확률, $P(action|state)$이 됩니다. 정책 중 가장 좋은 것을 optimal policy라 하고, 주로 $\pi$로 나타냅니다. 현재 상태가 s일 때 확률 분포는 $\pi(·|s)$, 특정 행동 a가 뽑힐 확률은 $\pi(a|s)$로 나타냅니다.

Environment

  • 문제 세팅을 의미합니다. agent가 취할 수 있는 행동과 보상 등 모든 규칙이 환경 자체가 됩니다. 즉, $S, A, R$은 모두 환경 구성 요소입니다. 여기서 환경이 Markov property를 가집니다.

 

 

Reference

[Fundamental of Reinforcement Learning]

[강화학습 핵심 개념 정리 (1)]

 

728x90

'AI > Reinforcement Learing' 카테고리의 다른 글

[RL] MDP(Markov Decision Process)  (0) 2022.10.14
댓글