티스토리 뷰

728x90

Contrastive learning pre-training은 딥러닝에 널리 적용되었습니다. 레이블이 지정된 데이터(labeled data)의 효율성을 향상 시킬 수 있었습니다.  레이블이 지정되지 않은(unlabeled) 이미지는 unsupervised contrastive pre-learning 중에 latent space에 클러스터 되어서 서로 다른 클래스 간에 상당히 좋은 decision boundary를 형성합니다. 이 클러스터링 기반으로 subsequent supervised fine-tuning은 random initialization보다 더 좋은 성능을 냅니다.

 

Visual-Language Models

Visual-Language models은 CLIP의 등장 이후 주로 zero-shot learning 능력이 뛰어나서 주목 받기 시작했습니다.

 

CLIP model architecture

 

CLIP에는 이미지 인코더와 텍스트 인코더의 두 가지 인코더가 포함됩니다. 학습하는 동안 입력은 이미지 및 해당 캡션과 같은 이미지-텍스트 쌍입니다. 위에 표시된 것처럼 훈련 중에 미니 배치의 이미지와 캡션은 각각 해당 인코더에 의해 동일한 길이의 벡터로 변환됩니다. 정규화 후 이미지 벡터는 해당 텍스트 벡터에 더 가깝게 당겨지고 다른 텍스트 벡터에서 멀어집니다. 텍스트 벡터도 마찬가지입니다.

이와 같은 다중 모드 데이터(multimodal data)로 학습된 모델은 단일 모드 데이터(unimodal data)로 학습된 모델보다 더 강력한 feature를 생성할 수 있습니다. 많은 컴퓨터 비전 연구자들은 downstream 비전 작업을 fine-tuning하기 위해 CLIP의 사전 훈련된 이미지 인코더를 활용하여 (단일 모드) 이미지로만 사전 훈련된 것보다 더 나은 성능을 달성합니다.

모델이 데이터를 많이 사용하여서 CLIP을 학습하는 것은 어렵습니다. 저자는 인터넷에서 수집한 웹 기반의 4억 개의 이미지-틱스트 쌍을 사용해서 모델을 훈련했습니다. 데이터 세트는 Wikipedia에서 빈도가 높은 시각적 개념의 허용 목록을 구성한 다음 큐레이팅하여 수집합니다. 그러나 이러한 대규모 데이터 세트를 만드는 것은 비용이 많이 들고 데이터 세트 및 모델 용량 관점 모두에서 교육의 확장을 방해합니다.

ALIGN model architecture

ALIGN이라는 후속 작업은 CLIP과 유사한 아키텍처를 훈련하기 위해 1B 노이즈 이미지-텍스트 쌍을 사용했습니다. 데이터 세트는 선별되거나 정리되지 않으며 원시 이미지-텍스트 데이터의 자연스러운 분포를 따릅니다. 큰 크기 덕분에(CLIP 학습에 사용된 데이터 세트보다 2.5배 더 큼) 노이즈를 보완할 수 있었고 다양한 다운스트림 작업에서 최첨단 성능을 달성했습니다.

학습에 큰 데이터 세트를 사용하면 좋은 모델을 생성할 수 있지만 비용이 많이 듭니다. CLIP과 ALIGN이 각각 OpenAI와 Google에서 제안되어서, 일반적인 기업이라면 이런 훈련은 불가합니다. 그래서 더 데이터 효율적인 방식으로 더 적은 이미지-텍스트 쌍으로 CLIP 및 ALIGN에 일치하는 성능으로 모델을 교육할 수 있는 방법에 대해 연구를 하게 됩니다.

 

728x90
댓글