Building an encoder-decoder transformer architecture for sequence-to-equence language tasks Building an encoder-decoder transformer architecture for sequence-to-equence language tasks like text translation and summarization Encoder-Decoder Connection: The encoder connects to the decoder through cross-Attention, allowing the decoder to use the encoder's final hidden states to generate the target sequence.Cross-Attention Mechanism: This mechanism helps the decoder "look back" at the inpu.. Transformer Inference의 두 단계: Prefill과 Decode 및 KV Caching 차이 Transformer 모델에서 inference는 크게 Prefill과 Decode의 두 단계로 이루어진다. 이 두 단계는 입력 토큰을 처리하고, 출력을 생성하는 방식이 다르며, 각각 성능에 중요한 영향을 미친다. 또한, 효율적인 추론을 위해 KV (Key-Value) 캐싱이 활용되는데, 이를 통해 불필요한 연산을 줄이고 속도를 최적화할 수 있다. Prefill 단계: 입력 토큰 처리 단계 Prefill 단계는 모델이 전체 입력 시퀀스를 한 번에 병렬로 처리하여, 각 토큰을 key-value 쌍으로 변환하는 과정이다. 이때 행렬-행렬 곱셈(matrix-matrix multiplication) 연산을 통해 모든 토큰이 병렬로 처리되므로, 여러 토큰을 동시에 계산할 수 있어 GPU를 최대로 활용할 수 있다... cs231n 13강 정리 - Generative models 이번 포스팅은 cs231n 강의의 Lecture 13 Generative models를 참고하여 공부하였습니다. 2022년에 공부하고 정리한 건데, 개념이 어려웠는지 귀찮았는지 또 정리를 저 이후로 포기했나보네요. 아무쪼록 다시 정리 해보겠습니다. Supervised vs Unsupervised Learning 컴퓨터 비전에서 이미지 분류 같은 작업 등을 통하여 많은 발전을 이루었습니다. 크게 data와 label 사이의 관계를 학습한 Supervised와 데이터 자체로서 갖고 있는 특징을 이해하기 위한 시도는 Unsupervised로 연구되어 왔습니다. 그 이후 데이터 갖는 True distribution을 학습하여 데이터에 대한 모든 것을 학습하고 싶은 Densitiy model의 관점으로 접근해 본.. Visda2017 데이터셋 다운로드 dataset download 순서대로 train / val / test 용 데이터셋입니다. cd ./data wget http://csr.bu.edu/ftp/visda17/clf/train.tar tar xvf train.tar wget http://csr.bu.edu/ftp/visda17/clf/validation.tar tar xvf validation.tar wget http://csr.bu.edu/ftp/visda17/clf/test.tar tar xvf test.tar wget https://raw.githubusercontent.com/VisionLearningGroup/taskcv-2017-public/master/classification/data/image_list.txt 다운 받은 이미지의 구조 train/{cat.. CityScapes 데이터셋 다운로드 방법 (Cityscapes Dataset Download) CityScapes 데이터세트를 사용하려면 Cityscapes의 웹사이트( https://www.cityscapes-dataset.com/ )에서 계정을 만들어야 합니다. 데이터를 다운로드하려면 계정 정보를 입력해야 합니다. 서버에서 직접 데이터셋을 다운로드 할 수는 있지만 44GB, 11GB, 6.6GB 등으로 용량이 꽤 큰데 직접 다운 받기엔 너무 오래 걸리고, 서버에 직접 다운로드 받는 방법을 택했습니다. 1. 회원 가입 아이디, 비밀번호 기억 2. 쿠키 정보 입력 wget --keep-session-cookies --save-cookies=cookies.txt --post-data 'username=USERNAME&password=PASSWORD&submit=Login' https://www.ci.. GPU 활용 방법 - 선택해서 사용하는 방법 multi-gpu일 때, gpu를 나눠서 메모리를 활용하는 경우에 사용할 수 있다. 1. python process를 각 세션에서 실행 2. CUDA_VISIBLE_DEVICES 에 대해 gpu number 할당 $ CUDA_VISIBLE_DEVICES=0 python my_script.py # Uses GPU 0. $ CUDA_VISIBLE_DEVICES=1 python my_script.py # Uses GPU 1. $ CUDA_VISIBLE_DEVICES=2,3 python my_script.py # Uses GPUs 2 and 3. 출처: https://stackoverflow.com/questions/34775522/tensorflow-multiple-sessions-with-multiple-g.. ControlNet Openpose tutorial - 컨트롤넷 오픈포즈 튜토리얼 Controlnet - Human Pose Code ControlNet은 조건을 추가하여 Diffusion model을 제어하는 신경망 구조입니다. zero convolution이 핵심 개념이라고는 하는데, 논문에 대한 내용은 ‘Adding Conditional Control to Text-to-Image Diffusion Models’ 해당 논문을 참고하시면 좋을듯 합니다. Huggingface에서 Stable Diffision과 함께 ControlNet을 결합한 모델을 사용하도록 했습니다. 모델 타입: Diffusion-based text-to-image generation model ControlNet은 end-to-end 방식으로 작업별 조건을 학습하며 훈련 데이터셋이 작은 경우에도 robust하.. Style Transfer 참고용으로 정리 UNet 전체 네트워크를 학습하는 것과 디코더만 업데이트하는 것의 차이 1. 전체 네트워크를 학습하는 경우: - 인코더와 디코더의 모든 가중치가 업데이트 - 입력 이미지와 대상 출력(레이블) 간의 손실을 최소화하도록 모델이 최적화됨 - 전체 네트워크는 입력 이미지에 대한 픽셀 수준의 예측을 수행하며, 입력 이미지의 특징을 인코딩하고 디코딩하여 출력을 생성 2. 디코더만 업데이트하는 경우: - 인코더의 가중치는 고정되어 있고, 디코더만 업데이트 - 보통 사전 훈련된 인코더를 사용하여 디코더를 초기화하고, 디코더만 새로운 작업에 맞게 조정됨 - 일반적으로 스타일 변환 작업과 같은 고수준의 시각적 특징을 학습하는 데 효과적 - 인코더는 이미 일반적인 시각적 특징을 학습한 모델을 사용하기 때문에.. Style Transfer와 GAN 그리고 StyleGAN Style Transfer 주어진 이미지의 스타일과 콘텐츠를 결합하여 새로운 이미지를 생성하는 작업 일반적으로 두 개의 이미지를 사용하는데 하나는 스타일 이미지로서 원하는 스타일을 갖고 있고, 다른 하나는 콘텐츠 이미지로서 스타일을 적용하고자 하는 대상임 스타일 이미지의 텍스처, 색상 및 시각적 특징을 콘텐츠 이미지에 적용하여 두 이미지를 결합한 결과를 생성함 스타일 전이는 주로 이미지 처리 작업에 사용되며, 예술적 효과를 부여하거나 이미지 스타일 변환을 수행하는데 사용 Generative Model 주어진 데이터로부터 새로운 데이터를 생성하는 모델 생성 모델은 주어진 데이터의 특징과 패턴을 추출한 후, 그 기반으로 새로운 샘플을 생성함 생성 모델은 딥러닝의 생성적 적대 신경망(GAN, Generativ.. Online Continual Learning 개념 정리 "Online Class-Incremental Continual Learning with Adversarial Shapley Value" 논문 읽으며 굵직한 개념 정리 1. Online Continual Learning 의미 온라인 지속적 학습(Online Continual Learning)은 컴퓨터 시스템이 새로운 데이터를 계속해서 받아들이고, 이전에 학습한 데이터와 함께 사용하여 지속적으로 학습하고 성능을 개선하는 능력을 말한다. 기존의 머신 러닝 모델은 대부분 한 번 학습하면 끝이여서 새로운 데이터를 받아들이면 처음부터 다시 학습해야 한다. 하지만 온라인 지속적 학습은 이전에 학습한 내용을 유지하면서 새로운 데이터를 계속해서 학습하여 모델의 성능을 개선할 수 있다. 온라인 지속적 학습은 대규모 데이.. 이미지 태깅(Image Tagging)이란? 이미지 태깅(Image Tagging)은 이미지 분류(Image Classification)의 한 종류로, 이미지에 대한 태그를 생성하는 작업을 말한다. 이미지 태깅(Image Tagging)은 이미지에 대해 적절한 레이블 또는 태그를 부여하는 작업으로 이 작업은 이미지 분류(Image Classification)과 비슷하지만, 이미지 분류는 단일 레이블을 할당하는 반면, 이미지 태깅은 이미지에 대해 다중 레이블 또는 태그를 부여한다. 일반적으로 객체를 식별하고 이미지 내에서 발견되는 다양한 속성, 개념 또는 주제에 대한 라벨 또는 태그를 생성하는 것을 목표로 한다. 예를 들어, "사람", "자동차", "도시", "자연", "해변" 등의 태그를 이미지에 부여하는 것이 가능하다. 이렇게 생성된 태그는 이미.. 기초 확률, 가우시안 분포, 커널밀도추정, 최근접 이웃 접근법 공부하며 정리한 것 하지만 시험은 못 봄 ㅋ 이전 1 2 3 4 ··· 7 다음