순서대로 train / val / test 용 데이터셋입니다. cd ./data wget http://csr.bu.edu/ftp/visda17/clf/train.tar tar xvf train.tar wget http://csr.bu.edu/ftp/visda17/clf/validation.tar tar xvf validation.tar wget http://csr.bu.edu/ftp/visda17/clf/test.tar tar xvf test.tar wget https://raw.githubusercontent.com/VisionLearningGroup/taskcv-2017-public/master/classification/data/image_list.txt 다운 받은 이미지의 구조 train/{cat..
CityScapes 데이터세트를 사용하려면 Cityscapes의 웹사이트( https://www.cityscapes-dataset.com/ )에서 계정을 만들어야 합니다. 데이터를 다운로드하려면 계정 정보를 입력해야 합니다. 서버에서 직접 데이터셋을 다운로드 할 수는 있지만 44GB, 11GB, 6.6GB 등으로 용량이 꽤 큰데 직접 다운 받기엔 너무 오래 걸리고, 서버에 직접 다운로드 받는 방법을 택했습니다. 1. 회원 가입 아이디, 비밀번호 기억 2. 쿠키 정보 입력 wget --keep-session-cookies --save-cookies=cookies.txt --post-data 'username=USERNAME&password=PASSWORD&submit=Login' https://www.ci..
multi-gpu일 때, gpu를 나눠서 메모리를 활용하는 경우에 사용할 수 있다. 1. python process를 각 세션에서 실행 2. CUDA_VISIBLE_DEVICES 에 대해 gpu number 할당 $ CUDA_VISIBLE_DEVICES=0 python my_script.py # Uses GPU 0. $ CUDA_VISIBLE_DEVICES=1 python my_script.py # Uses GPU 1. $ CUDA_VISIBLE_DEVICES=2,3 python my_script.py # Uses GPUs 2 and 3. 출처: https://stackoverflow.com/questions/34775522/tensorflow-multiple-sessions-with-multiple-g..
Controlnet - Human Pose Code ControlNet은 조건을 추가하여 Diffusion model을 제어하는 신경망 구조입니다. zero convolution이 핵심 개념이라고는 하는데, 논문에 대한 내용은 ‘Adding Conditional Control to Text-to-Image Diffusion Models’ 해당 논문을 참고하시면 좋을듯 합니다. Huggingface에서 Stable Diffision과 함께 ControlNet을 결합한 모델을 사용하도록 했습니다. 모델 타입: Diffusion-based text-to-image generation model ControlNet은 end-to-end 방식으로 작업별 조건을 학습하며 훈련 데이터셋이 작은 경우에도 robust하..
참고용으로 정리 UNet 전체 네트워크를 학습하는 것과 디코더만 업데이트하는 것의 차이 1. 전체 네트워크를 학습하는 경우: - 인코더와 디코더의 모든 가중치가 업데이트 - 입력 이미지와 대상 출력(레이블) 간의 손실을 최소화하도록 모델이 최적화됨 - 전체 네트워크는 입력 이미지에 대한 픽셀 수준의 예측을 수행하며, 입력 이미지의 특징을 인코딩하고 디코딩하여 출력을 생성 2. 디코더만 업데이트하는 경우: - 인코더의 가중치는 고정되어 있고, 디코더만 업데이트 - 보통 사전 훈련된 인코더를 사용하여 디코더를 초기화하고, 디코더만 새로운 작업에 맞게 조정됨 - 일반적으로 스타일 변환 작업과 같은 고수준의 시각적 특징을 학습하는 데 효과적 - 인코더는 이미 일반적인 시각적 특징을 학습한 모델을 사용하기 때문에..
Style Transfer 주어진 이미지의 스타일과 콘텐츠를 결합하여 새로운 이미지를 생성하는 작업 일반적으로 두 개의 이미지를 사용하는데 하나는 스타일 이미지로서 원하는 스타일을 갖고 있고, 다른 하나는 콘텐츠 이미지로서 스타일을 적용하고자 하는 대상임 스타일 이미지의 텍스처, 색상 및 시각적 특징을 콘텐츠 이미지에 적용하여 두 이미지를 결합한 결과를 생성함 스타일 전이는 주로 이미지 처리 작업에 사용되며, 예술적 효과를 부여하거나 이미지 스타일 변환을 수행하는데 사용 Generative Model 주어진 데이터로부터 새로운 데이터를 생성하는 모델 생성 모델은 주어진 데이터의 특징과 패턴을 추출한 후, 그 기반으로 새로운 샘플을 생성함 생성 모델은 딥러닝의 생성적 적대 신경망(GAN, Generativ..
이미지 태깅(Image Tagging)은 이미지 분류(Image Classification)의 한 종류로, 이미지에 대한 태그를 생성하는 작업을 말한다. 이미지 태깅(Image Tagging)은 이미지에 대해 적절한 레이블 또는 태그를 부여하는 작업으로 이 작업은 이미지 분류(Image Classification)과 비슷하지만, 이미지 분류는 단일 레이블을 할당하는 반면, 이미지 태깅은 이미지에 대해 다중 레이블 또는 태그를 부여한다. 일반적으로 객체를 식별하고 이미지 내에서 발견되는 다양한 속성, 개념 또는 주제에 대한 라벨 또는 태그를 생성하는 것을 목표로 한다. 예를 들어, "사람", "자동차", "도시", "자연", "해변" 등의 태그를 이미지에 부여하는 것이 가능하다. 이렇게 생성된 태그는 이미..
다운스트림 비전 작업에서 이미지 인코더만 활용하는 단점은 텍스트 인코더의 프롬프트 정보가 버려진다는 것입니다. 텍스트 인코더는 다운스트림 비전 작업의 성능에 기여할 수 있는 신속한 임베딩을 제공합니다. 따라서 다운스트림 작업의 미세 조정에서 두 인코더를 협력하여 이미지-텍스트 임베딩 간의 상호 작용을 조사하고 효율적인 모델 적응에서 그 효과를 이해할 수 있습니다. 효율적인 모델 적응은 데이터 효율적 및 매개 변수 효율적이라는 두 가지 방법으로 달성할 수 있습니다. 두 방법 모두 레이블이 지정된 데이터 및 모델 매개변수와 같은 관련 리소스를 줄임으로써 모델 학습 부담을 완화합니다. 전자는 소수/제로 샷 학습을 달성하는 데 도움이 될 수 있고 후자는 전체 매개변수의 작은 비율만 훈련하여 높은 성능을 달성할 ..
- Total
- Today
- Yesterday
- 프롬프트
- 파이썬 딕셔너리
- prompt learning
- CNN
- style transfer
- docker
- stylegan
- 도커
- 도커 컨테이너
- few-shot learning
- Unsupervised learning
- 서버에다운
- 파이썬
- 딥러닝
- Prompt
- vscode 자동 저장
- 서버구글드라이브연동
- 파이썬 클래스 계층 구조
- 구글드라이브서버다운
- clip
- 구글드라이브연동
- 데이터셋다운로드
- python
- NLP
- 구글드라이브다운
- 파이썬 클래스 다형성
- 퓨샷러닝
- 구글드라이브서버연동
- cs231n
- support set
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |