Building an encoder-decoder transformer architecture for sequence-to-equence language tasks like text translation and summarization Encoder-Decoder Connection: The encoder connects to the decoder through cross-Attention, allowing the decoder to use the encoder's final hidden states to generate the target sequence.Cross-Attention Mechanism: This mechanism helps the decoder "look back" at the inpu..
Transformer 모델에서 inference는 크게 Prefill과 Decode의 두 단계로 이루어진다. 이 두 단계는 입력 토큰을 처리하고, 출력을 생성하는 방식이 다르며, 각각 성능에 중요한 영향을 미친다. 또한, 효율적인 추론을 위해 KV (Key-Value) 캐싱이 활용되는데, 이를 통해 불필요한 연산을 줄이고 속도를 최적화할 수 있다. Prefill 단계: 입력 토큰 처리 단계 Prefill 단계는 모델이 전체 입력 시퀀스를 한 번에 병렬로 처리하여, 각 토큰을 key-value 쌍으로 변환하는 과정이다. 이때 행렬-행렬 곱셈(matrix-matrix multiplication) 연산을 통해 모든 토큰이 병렬로 처리되므로, 여러 토큰을 동시에 계산할 수 있어 GPU를 최대로 활용할 수 있다...
이번 포스팅은 cs231n 강의의 Lecture 13 Generative models를 참고하여 공부하였습니다. 2022년에 공부하고 정리한 건데, 개념이 어려웠는지 귀찮았는지 또 정리를 저 이후로 포기했나보네요. 아무쪼록 다시 정리 해보겠습니다. Supervised vs Unsupervised Learning 컴퓨터 비전에서 이미지 분류 같은 작업 등을 통하여 많은 발전을 이루었습니다. 크게 data와 label 사이의 관계를 학습한 Supervised와 데이터 자체로서 갖고 있는 특징을 이해하기 위한 시도는 Unsupervised로 연구되어 왔습니다. 그 이후 데이터 갖는 True distribution을 학습하여 데이터에 대한 모든 것을 학습하고 싶은 Densitiy model의 관점으로 접근해 본..
순서대로 train / val / test 용 데이터셋입니다. cd ./data wget http://csr.bu.edu/ftp/visda17/clf/train.tar tar xvf train.tar wget http://csr.bu.edu/ftp/visda17/clf/validation.tar tar xvf validation.tar wget http://csr.bu.edu/ftp/visda17/clf/test.tar tar xvf test.tar wget https://raw.githubusercontent.com/VisionLearningGroup/taskcv-2017-public/master/classification/data/image_list.txt 다운 받은 이미지의 구조 train/{cat..
CityScapes 데이터세트를 사용하려면 Cityscapes의 웹사이트( https://www.cityscapes-dataset.com/ )에서 계정을 만들어야 합니다. 데이터를 다운로드하려면 계정 정보를 입력해야 합니다. 서버에서 직접 데이터셋을 다운로드 할 수는 있지만 44GB, 11GB, 6.6GB 등으로 용량이 꽤 큰데 직접 다운 받기엔 너무 오래 걸리고, 서버에 직접 다운로드 받는 방법을 택했습니다. 1. 회원 가입 아이디, 비밀번호 기억 2. 쿠키 정보 입력 wget --keep-session-cookies --save-cookies=cookies.txt --post-data 'username=USERNAME&password=PASSWORD&submit=Login' https://www.ci..
multi-gpu일 때, gpu를 나눠서 메모리를 활용하는 경우에 사용할 수 있다. 1. python process를 각 세션에서 실행 2. CUDA_VISIBLE_DEVICES 에 대해 gpu number 할당 $ CUDA_VISIBLE_DEVICES=0 python my_script.py # Uses GPU 0. $ CUDA_VISIBLE_DEVICES=1 python my_script.py # Uses GPU 1. $ CUDA_VISIBLE_DEVICES=2,3 python my_script.py # Uses GPUs 2 and 3. 출처: https://stackoverflow.com/questions/34775522/tensorflow-multiple-sessions-with-multiple-g..
Controlnet - Human Pose Code ControlNet은 조건을 추가하여 Diffusion model을 제어하는 신경망 구조입니다. zero convolution이 핵심 개념이라고는 하는데, 논문에 대한 내용은 ‘Adding Conditional Control to Text-to-Image Diffusion Models’ 해당 논문을 참고하시면 좋을듯 합니다. Huggingface에서 Stable Diffision과 함께 ControlNet을 결합한 모델을 사용하도록 했습니다. 모델 타입: Diffusion-based text-to-image generation model ControlNet은 end-to-end 방식으로 작업별 조건을 학습하며 훈련 데이터셋이 작은 경우에도 robust하..
참고용으로 정리 UNet 전체 네트워크를 학습하는 것과 디코더만 업데이트하는 것의 차이 1. 전체 네트워크를 학습하는 경우: - 인코더와 디코더의 모든 가중치가 업데이트 - 입력 이미지와 대상 출력(레이블) 간의 손실을 최소화하도록 모델이 최적화됨 - 전체 네트워크는 입력 이미지에 대한 픽셀 수준의 예측을 수행하며, 입력 이미지의 특징을 인코딩하고 디코딩하여 출력을 생성 2. 디코더만 업데이트하는 경우: - 인코더의 가중치는 고정되어 있고, 디코더만 업데이트 - 보통 사전 훈련된 인코더를 사용하여 디코더를 초기화하고, 디코더만 새로운 작업에 맞게 조정됨 - 일반적으로 스타일 변환 작업과 같은 고수준의 시각적 특징을 학습하는 데 효과적 - 인코더는 이미 일반적인 시각적 특징을 학습한 모델을 사용하기 때문에..
- Total
- Today
- Yesterday
- 구글드라이브연동
- 파이썬 클래스 다형성
- 도커
- stylegan
- 서버구글드라이브연동
- 파이썬
- 데이터셋다운로드
- clip
- 프롬프트
- style transfer
- Unsupervised learning
- 서버에다운
- NLP
- support set
- few-shot learning
- python
- 도커 컨테이너
- CNN
- 구글드라이브서버연동
- 딥러닝
- prompt learning
- 구글드라이브서버다운
- docker
- 파이썬 딕셔너리
- 구글드라이브다운
- 퓨샷러닝
- 파이썬 클래스 계층 구조
- Prompt
- cs231n
- vscode 자동 저장
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |