티스토리 뷰
AI/Reinforcement Learing
[RL] 강화학습 기본 개념 - 에이전트(Agent), 상태(State), 행동(Action), 포상(Reward), 정책(Policy)
미남잉 2022. 10. 14. 13:52728x90
제 인생 첫 강화학습, 솔직히 그냥 안 하고 싶은데 그래도 일단 꾸역꾸역 시작해봅니다.
저는 Fundamental of Reinforcement Learning 페이지를 참고하여 공부하고 정리했습니다. 글 가장 아래에 Reference를 다시 남기도록 하겠습니다.
강화학습을 공부하면 나오는 기본 단어들
- 에이전트(Agent), 상태(State), 행동(Action), 포상(Reward), 정책(Policy)
강화학습의 시작은
- Trial and error
- Optimal control
이 두 가지라고 합니다. 첫 번째는 시행 착오를 통해 변화한다는 특징, 두 번째는 어떤 비용함수의 비용을 최소화하도록 controler를 디자인하는 것을 의미합니다.
두 번째 문제는 Bellman equation(벨만 방정식)을 만들어서 풀고, 이 방법은 Dynamic Programming이라고 합니다. Bellman은 MDP(Markov Decision Process)라는 수학적 모델을 만들어서 사용합니다.
강화학습 기본 개념
Agent
- 주어진 문제 상황에서 행동하는 주체
State
- 상태는 현재 시점에서 상황이 어떤지 나타내는 값의 집합 $S$입니다. agent가 인식하는 자신의 상태를 의미합니다. 특정 시각 $t$에서의 상태값은 $s_t$로 적습니다.
Action
- 행동은 우리가 취할 수 있는 선택지를 의미합니다. 가능한 모든 행동의 집합을 의미하고, $A$로 표기합니다. 마찬가지로 특정 시각 $t$에서의 행동은 $a_t$로 적습니다.
Reward
- agent가 어떤 행동을 했을 때 따라오는 이득을 의미합니다. $R$로 나타내고, 상태 $s_t$에서 행동 $a_t$를 취했을 때, 상태가 $s_{t+1}$로 바뀌면서 얻은 보상은 $r_t$가 됩니다. 함수로 나타내면, $R:S \times A \times S \rightarrow R$ 로 나타냅니다.
Policy
- agent가 판단하는 방식을 의미합니다. 수학적으로 나타내면 상태에 따른 행동의 조건부 확률, $P(action|state)$이 됩니다. 정책 중 가장 좋은 것을 optimal policy라 하고, 주로 $\pi$로 나타냅니다. 현재 상태가 s일 때 확률 분포는 $\pi(·|s)$, 특정 행동 a가 뽑힐 확률은 $\pi(a|s)$로 나타냅니다.
Environment
- 문제 세팅을 의미합니다. agent가 취할 수 있는 행동과 보상 등 모든 규칙이 환경 자체가 됩니다. 즉, $S, A, R$은 모두 환경 구성 요소입니다. 여기서 환경이 Markov property를 가집니다.
Reference
[Fundamental of Reinforcement Learning]
728x90
'AI > Reinforcement Learing' 카테고리의 다른 글
[RL] MDP(Markov Decision Process) (0) | 2022.10.14 |
---|
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- cs231n
- 도커
- clip
- stylegan
- vscode 자동 저장
- 서버구글드라이브연동
- 구글드라이브다운
- NLP
- 딥러닝
- 구글드라이브서버연동
- Unsupervised learning
- 파이썬 딕셔너리
- 구글드라이브서버다운
- 도커 컨테이너
- docker
- 구글드라이브연동
- Prompt
- 데이터셋다운로드
- python
- 서버에다운
- style transfer
- 파이썬 클래스 계층 구조
- 퓨샷러닝
- 파이썬 클래스 다형성
- CNN
- support set
- 파이썬
- few-shot learning
- 프롬프트
- prompt learning
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함
250x250