Cute Bunny 3 'AI/Reinforcement Learing' 카테고리의 글 목록
본문 바로가기 메뉴 바로가기

Deep-Dive AI

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

Deep-Dive AI

검색하기 폼
  • 분류 전체보기 (212)
    • AI (76)
      • Machine Learning (5)
      • Deep Learning (26)
      • Reinforcement Learing (2)
      • CS231n (11)
      • Computer Vision (19)
      • Linear Algebra (1)
      • NLP (9)
    • Review (19)
      • Paper (19)
    • Skills (116)
      • PyTorch (7)
      • Docker (14)
      • Pythons (20)
      • Git & Github (3)
      • DS & Algorithms (4)
      • Error (48)
      • etc (20)
    • Mine (1)
  • 방명록

AI/Reinforcement Learing (2)
[RL] MDP(Markov Decision Process)

너무 공부하기 싫은 강화학습 울며 겨자먹기로 공부 시작 강화학습에는 agent라는 학습자와 의사 결정자가 존재합니다. 그리고 상호 작용하는 주변을 환경(environment)이라고 합니다. 환경은 agent의 행동(action)에 따라 보상(reward)과 새로운 상태(state)를 제공합니다. 따라서 강화학습에선 agent에게 어떻게 해야하는지 가르치지 않고 행동에 따른 긍정적이든 부정적이든 보상을 제공합니다. (나도 잘하면 떡 좀 주라.) 그리고 강화학습은 모든 문제를 수학적으로 공식화합니다. 가장 기본이 되는 공식이 MDP(Markov Decision Process)입니다. 알아야 하는 것 The Agent-Environment relationship Markov Property Markov Pro..

AI/Reinforcement Learing 2022. 10. 14. 17:30
[RL] 강화학습 기본 개념 - 에이전트(Agent), 상태(State), 행동(Action), 포상(Reward), 정책(Policy)

제 인생 첫 강화학습, 솔직히 그냥 안 하고 싶은데 그래도 일단 꾸역꾸역 시작해봅니다. 저는 Fundamental of Reinforcement Learning 페이지를 참고하여 공부하고 정리했습니다. 글 가장 아래에 Reference를 다시 남기도록 하겠습니다. 강화학습을 공부하면 나오는 기본 단어들 에이전트(Agent), 상태(State), 행동(Action), 포상(Reward), 정책(Policy) 강화학습의 시작은 Trial and error Optimal control 이 두 가지라고 합니다. 첫 번째는 시행 착오를 통해 변화한다는 특징, 두 번째는 어떤 비용함수의 비용을 최소화하도록 controler를 디자인하는 것을 의미합니다. 두 번째 문제는 Bellman equation(벨만 방정식)을..

AI/Reinforcement Learing 2022. 10. 14. 13:52
이전 1 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • linux nano
  • 딥러닝
  • python
  • cs231n
  • 리눅스 나노
  • 리눅스 나노 사용
  • 도커 컨테이너
  • Prompt
  • 파이썬
  • style transfer
  • 퓨샷러닝
  • Unsupervised learning
  • support set
  • prompt learning
  • CNN
  • few-shot learning
  • docker
  • 서버구글드라이브연동
  • 파이썬 클래스 계층 구조
  • clip
  • 구글드라이브연동
  • 도커
  • 리눅스
  • 파이썬 딕셔너리
  • stylegan
  • 리눅스 nano
  • NLP
  • 파이썬 클래스 다형성
  • 도커 작업
  • 프롬프트
more
«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함
250x250

Blog is powered by Tistory / Designed by Tistory

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.