논문 링크: https://arxiv.org/abs/2112.11593 간단한 내용만 요약하였습니다. 추후에 계속 수정될 수 있습니다. AdaptPose: Cross-Dataset Adaptation for 3D Human Pose Estimation by Learnable Motion Generation 3D 인간 자세 추정에서 교차 데이터셋의 일반화의 주요 도전 과제는 자세의 깊이(depth)에 대한 모호성 때문에 문제가 불안정하다는 점입니다. 이러한 문제를 해결하기 위해 딥러닝 모델을 사용해서 2D 이미지에서 3D 자세를 추정하는 것이 가능하지만, 이 모델은 유사한 데이터셋에서 훈련/테스트 할 때만 정확한 결과를 얻을 수 있습니다. 따라서 새로운 데이터셋으로 모델을 사용하려면 이전 데이터셋과 다른 ..
Abstract Keyword: only single text condition, patch-wise text-image matching loss, CLIP(pre-trained text-image embedding model) 원래 존재하는 스타일 트랜스퍼 방법은 스타일 이미지의 정보를 콘텐츠 이미지로 바꾸기 위한 참고 스타일 이미지가 필요하다. 우리의 프레임워크는 이 스타일 이미지 없이 스타일을 원하는 스타일의 텍스트 설명만으로 가능하다. CLIP의 사전 훈련된 text-image 임베딩 모델을 사용해서 오로지 single text condition만으로 콘텐츠 이미지의 스타일을 조정하는 것을 증명한다. 특별히 우리는 사실적인 텍스쳐 전송을 위한 다양한 관점의 증강을 하는 patch-wise text..
Paper: https://arxiv.org/abs/1812.04948 Video: https://youtu.be/kSLJriaOumA Code: https://github.com/NVlabs/stylegan StyleGAN의 output images이다. "A Style-Based Generator Architecture for Generative Adversarial Networks"은 Ian J. Goodfellow 등의 저자들이 2019년에 발표한 논문이다. 이 논문은 기존의 생성적 적대 신경망(GANs)의 생성자 아키텍처를 개선하여 고해상도 이미지 생성의 질과 다양성을 향상시키는 새로운 접근 방식을 제안한다. 이 논문에서 제안하는 아키텍처는 "style-based generator"로 알려져 있..
Conditional Prompt Learning for Vision-Language Models 논문 아카이브: https://arxiv.org/abs/2203.05557 CoCoOp 논문 리뷰를 하기 앞서, Prompt learning에 대해서 간략하게 정리를 해보려고 한다. 연구실에서 기술세미나를 하기 위해 만든 PPT이고, 첨부된 PPT는 직접 제작한 이미지라서 다른 곳에 사용할 땐 출처를 밝혀주세요. 저자의 초기 논문과 후속 논문을 함께 살펴볼 예정입니다. 목차는 위와 같습니다. 오늘 다룰 두 논문은 CLIP을 기반으로 한 모델입니다. 각각의 모델에서 어떤 식으로 프롬프트를 이용하고 있는지를 살펴볼 것입니다. 먼저 프롬프트의 개념을 NLP분야와 Vision-Language 분야로 나눠 설명하겠습..
Reference 논문 아카이브: https://arxiv.org/abs/2303.02506 프로젝트 설명 사이트: https://shikun.io/projects/prismer 깃허브: https://github.com/NVlabs/prismer 처음 알게 된 키워드 - Reasoning tasks, multimodality(Multi-modal experts), prompt, frozen language model, prompt tuning 논문 제목: A Vision-Language Model with Multi-Modal Experts Prismer 본 논문은 추론 작업을 위해 설계된 비전 언어 생성 모델인 프리즈머(Prismer)를 소개합니다. Prismer는 parameter-efficient..
이번에 읽은 논문은 'Attention Is All You Need'입니다. (링크를 누르면 논문 아카이브 페이지로 이동합니다.) Transformer 논문을 읽고 공부하는데 도움이 된 자료 (유튜브 논문 리뷰 영상) [Paper Review] Attention is All You Need (Transformer) (유튜브 강의 영상) 08-2: Transformer (번역본 정리 글) The Illustrated Transformer 참고 코드 https://github.com/jadore801120/attention-is-all-you-need-pytorch https://github.com/hyunwoongko/transformer
참고 출처 [Paper Review] Neural Machine Translation by Jointly Learning to Align and Translate 15. 어텐션 메커니즘 (Attention Mechanism) [NLP | 논문리뷰] NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE 딥러닝 논문 리뷰 >> NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE 리뷰 해당 논문을 읽고, 위의 유튜브 리뷰 영상과 블로그 정리 글을 통해 필요한 부분만 정리했음을 밝힙니다. 또한, 아키텍처의 구조는 김탁영님의 자료를 첨부하였음을 밝힙니다. 감사합니다. 해..
Abstract Deep reinforcement learning (RL) agent는 학습 환경을 일반화하는데 실패하곤 합니다. 이 문제를 줄이기 위해, 최근 연구는 data augmentation의 사용이 제안되었습니다. 그러나 다른 task는 augmentation의 다른 타입에 이익을 보는 경향이 있고, 맞는 것을 고르려면 전문적인 지식을 필요로 합니다. 해당 논문에서는 RL task를 위한 효율적인 augmentation을 자동으로 찾는 세 가지 접근법을 소개합니다. 이것들은 policy와 value function을 위한 새로운 두 가지 regularization term을 결합합니다. actor-critic algorithms에 대해서 이론적으로 data augmentation이라고 불리는 ..
- Total
- Today
- Yesterday
- 구글드라이브서버다운
- 구글드라이브연동
- 서버구글드라이브연동
- 프롬프트
- 파이썬
- clip
- 구글드라이브다운
- vscode 자동 저장
- Prompt
- Unsupervised learning
- 퓨샷러닝
- 딥러닝
- CNN
- 데이터셋다운로드
- 도커 컨테이너
- few-shot learning
- 파이썬 클래스 계층 구조
- 구글드라이브서버연동
- 도커
- 파이썬 클래스 다형성
- prompt learning
- 서버에다운
- cs231n
- 파이썬 딕셔너리
- python
- support set
- stylegan
- style transfer
- NLP
- docker
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |