너무 공부하기 싫은 강화학습 울며 겨자먹기로 공부 시작 강화학습에는 agent라는 학습자와 의사 결정자가 존재합니다. 그리고 상호 작용하는 주변을 환경(environment)이라고 합니다. 환경은 agent의 행동(action)에 따라 보상(reward)과 새로운 상태(state)를 제공합니다. 따라서 강화학습에선 agent에게 어떻게 해야하는지 가르치지 않고 행동에 따른 긍정적이든 부정적이든 보상을 제공합니다. (나도 잘하면 떡 좀 주라.) 그리고 강화학습은 모든 문제를 수학적으로 공식화합니다. 가장 기본이 되는 공식이 MDP(Markov Decision Process)입니다. 알아야 하는 것 The Agent-Environment relationship Markov Property Markov Pro..
제 인생 첫 강화학습, 솔직히 그냥 안 하고 싶은데 그래도 일단 꾸역꾸역 시작해봅니다. 저는 Fundamental of Reinforcement Learning 페이지를 참고하여 공부하고 정리했습니다. 글 가장 아래에 Reference를 다시 남기도록 하겠습니다. 강화학습을 공부하면 나오는 기본 단어들 에이전트(Agent), 상태(State), 행동(Action), 포상(Reward), 정책(Policy) 강화학습의 시작은 Trial and error Optimal control 이 두 가지라고 합니다. 첫 번째는 시행 착오를 통해 변화한다는 특징, 두 번째는 어떤 비용함수의 비용을 최소화하도록 controler를 디자인하는 것을 의미합니다. 두 번째 문제는 Bellman equation(벨만 방정식)을..
- Total
- Today
- Yesterday
- NLP
- 구글드라이브연동
- 구글드라이브서버연동
- cs231n
- 파이썬 클래스 다형성
- style transfer
- Unsupervised learning
- prompt learning
- 구글드라이브서버다운
- 딥러닝
- Prompt
- python
- 파이썬 딕셔너리
- 서버구글드라이브연동
- clip
- 파이썬 클래스 계층 구조
- 도커 컨테이너
- 데이터셋다운로드
- support set
- 프롬프트
- 서버에다운
- 파이썬
- vscode 자동 저장
- stylegan
- CNN
- 퓨샷러닝
- 도커
- docker
- few-shot learning
- 구글드라이브다운
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |