[RL] 강화학습 기본 개념 - 에이전트(Agent), 상태(State), 행동(Action), 포상(Reward), 정책(Policy)

티스토리 뷰

AI/Reinforcement Learing

[RL] 강화학습 기본 개념 - 에이전트(Agent), 상태(State), 행동(Action), 포상(Reward), 정책(Policy)

Suyeon Cha 2022. 10. 14. 13:52

728x90

제 인생 첫 강화학습, 솔직히 그냥 안 하고 싶은데 그래도 일단 꾸역꾸역 시작해봅니다.

저는 Fundamental of Reinforcement Learning 페이지를 참고하여 공부하고 정리했습니다. 글 가장 아래에 Reference를 다시 남기도록 하겠습니다.

강화학습을 공부하면 나오는 기본 단어들

에이전트(Agent), 상태(State), 행동(Action), 포상(Reward), 정책(Policy)

강화학습의 시작은

Trial and error
Optimal control

이 두 가지라고 합니다. 첫 번째는 시행 착오를 통해 변화한다는 특징, 두 번째는 어떤 비용함수의 비용을 최소화하도록 controler를 디자인하는 것을 의미합니다.

두 번째 문제는 Bellman equation(벨만 방정식)을 만들어서 풀고, 이 방법은 Dynamic Programming이라고 합니다. Bellman은 MDP(Markov Decision Process)라는 수학적 모델을 만들어서 사용합니다.

강화학습 기본 개념

Agent

주어진 문제 상황에서 행동하는 주체

State

상태는 현재 시점에서 상황이 어떤지 나타내는 값의 집합 $S$입니다. agent가 인식하는 자신의 상태를 의미합니다. 특정 시각 $t$에서의 상태값은 $s_t$로 적습니다.

Action

행동은 우리가 취할 수 있는 선택지를 의미합니다. 가능한 모든 행동의 집합을 의미하고, $A$로 표기합니다. 마찬가지로 특정 시각 $t$에서의 행동은 $a_t$로 적습니다.

Reward

agent가 어떤 행동을 했을 때 따라오는 이득을 의미합니다. $R$로 나타내고, 상태 $s_t$에서 행동 $a_t$를 취했을 때, 상태가 $s_{t+1}$로 바뀌면서 얻은 보상은 $r_t$가 됩니다. 함수로 나타내면, $R:S \times A \times S \rightarrow R$ 로 나타냅니다.

Policy

agent가 판단하는 방식을 의미합니다. 수학적으로 나타내면 상태에 따른 행동의 조건부 확률, $P(action|state)$이 됩니다. 정책 중 가장 좋은 것을 optimal policy라 하고, 주로 $\pi$로 나타냅니다. 현재 상태가 s일 때 확률 분포는 $\pi(·|s)$, 특정 행동 a가 뽑힐 확률은 $\pi(a|s)$로 나타냅니다.

Environment

문제 세팅을 의미합니다. agent가 취할 수 있는 행동과 보상 등 모든 규칙이 환경 자체가 됩니다. 즉, $S, A, R$은 모두 환경 구성 요소입니다. 여기서 환경이 Markov property를 가집니다.

Reference

[Fundamental of Reinforcement Learning]

[강화학습 핵심 개념 정리 (1)]

728x90

저작자표시 비영리 변경금지 (새창열림)

'AI > Reinforcement Learing' 카테고리의 다른 글

[RL] MDP(Markov Decision Process) (0)	2022.10.14

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

글 보관함

250x250

Deep-Dive AI

티스토리 뷰

[RL] 강화학습 기본 개념 - 에이전트(Agent), 상태(State), 행동(Action), 포상(Reward), 정책(Policy)

강화학습 기본 개념

Reference

'AI > Reinforcement Learing' 카테고리의 다른 글

티스토리툴바