티스토리 뷰

728x90

Reference

 

 

처음 알게 된 키워드

- Reasoning tasks, multimodality(Multi-modal experts), prompt, frozen language model, prompt tuning

 

논문 제목: A Vision-Language Model with Multi-Modal Experts

 

Prismer

본 논문은 추론 작업을 위해 설계된 비전 언어 생성 모델인 프리즈머(Prismer)를 소개합니다. Prismer는 parameter-efficient하며 trainable한 소수의 구성 요소를 활용하여 사전 훈련된 다양한 전문가의 앙상블을 연결합니다.

 

Prismer는 이러한 전문가를 활용하여 이미지 캡션, VQA 및 이미지 분류 벤치마크에서 최대 2배 더 많은 데이터로 훈련된 모델에 필적하는 경쟁력 있는 성능을 달성합니다.

  • Experts: Segmentation, Object Detectiom, OCR detection, EDGE, Surface normal

 

 

Experts/ modality experts

"전문가"라고 하는 별개의 하위 네트워크를 통해 이러한 기술과 도메인 지식을 배우기 위한 대체 접근 방식을 조사합니다. 따라서 각 전문가는 특정 작업에 대해 독립적으로 최적화될 수 있으므로 단일 대규모 네트워크에서는 실현할 수 없는 도메인별 데이터 및 아키텍처를 사용할 수 있습니다. 이는 모델이 한 번에 모든 것을 배우려고 하기보다 전문 기술과 도메인 지식을 통합하는 데 집중할 수 있으므로 훈련 효율성이 향상되어 다중 모달 학습을 축소하는 효과적인 방법이 됩니다.

 

  1. Backbone Experts: 이미지와 텍스트를 의미 있는 토큰 시퀀스로 인코딩하는 역할을 하는 비전 전용 및 언어 전용 사전 훈련된 모델입니다. 두 모델 모두 트랜스포머 아키텍처를 기반으로 해야 하므로 비슷한 디자인의 학습 가능한 몇 가지 구성 요소와 쉽게 연결할 수 있습니다. 네트워크 매개변수에 인코딩된 풍부한 도메인별 지식을 보존하기 위해 대부분의 가중치는 사전 훈련 중에 동결됩니다.
  2. Modality Experts: 교육 데이터 세트에 따라 작업별 레이블을 생성할 수 있는 모델입니다. Prismer에는 시각 영역에서 최대 6명의 양식 전문가가 포함되어 깊이, 표면 법선 및 가장자리의 세 가지 저수준 시각 신호를 인코딩합니다. 세 가지 상위 수준 시각 신호: 개체 레이블, 분할 레이블 및 텍스트 레이블. 이러한 양식 전문가는 블랙박스 예측자로 취급되며 예측 레이블은 Prismer 모델의 입력으로 사용됩니다. 결과적으로 양식 전문가의 모든 네트워크 가중치가 고정되고 어떤 디자인이든 가질 수 있습니다.

 

 

Observation #1: More Experts, Better Performance.

더 많은 양식 전문가를 추가하면 Prismer의 성능이 향상되는 것을 관찰했습니다. 더 많은 전문가가 모델에 더 다양한 도메인 지식을 제공하기 때문입니다. 그러나 우리는 또한 모델의 성능이 결국 정체되어 추가 양식 전문가가 특정 숫자를 초과하는 추가 이득을 제공하지 않음을 시사합니다.

Observation #2: Better Experts, Better Performance.

전문가 품질이 Prismer의 성능에 미치는 영향을 평가하기 위해 일정 수의 예측된 깊이 레이블을 균일 분포에서 샘플링된 무작위 노이즈로 대체하여 손상된 깊이 전문가를 구성합니다. 깊이 전문가의 품질이 향상됨에 따라 Prismer의 성능이 향상됩니다. 더 나은 전문가가 더 정확한 도메인 지식을 제공하므로 모델이 더 정확하게 인식할 수 있으므로 이는 직관적입니다.

Observation #3: Robustness to Noisy Experts.

우리의 결과는 또한 Prismer가 소음을 예측하는 전문가를 포함하는 경우에도 성능을 유지함을 보여줍니다. 흥미롭게도 노이즈를 추가하면 암시적 정규화의 한 형태로 간주될 수 있는 RGB 이미지 단독으로 훈련하는 것과 비교하여 적지 않은 개선을 가져올 수 있습니다. 이 속성을 사용하면 전문가가 반드시 유익하지 않은 경우에도 성능을 저하시키지 않고 모델에 많은 전문가를 안전하게 포함할 수 있습니다. 따라서 Prismer는 작업 관계를 탐색하거나 보다 발전된 최적화 절차를 설계해야 하는 표준 다중 작업 또는 보조 학습 방법보다 더 효과적인 학습 전략을 제시합니다.

 

 

Limitation

1. Multi-modal In-context Learning:

이 작업에서 우리는 parameter-efficient 학습에 중점을 둔 소규모 언어 모델 위에 Prismer를 구축합니다. 따라서 의도적으로 context 내 prompting을 몇 번만 수행할 수 있는 기능이 없습니다.

*emergent property: 더 작은 모델에는 없지만, 더 큰 모델에는 존재하는 경우에 나타나는 능력(An ability is emergent if it is not present in smaller models but is present in larger models.) Zero-shot in-context 일반화는 매우 큰 언어 모델에만 존재하는 새로운 속성(emergent property) 이다.

2. Zero-shot Adaptation on New Experts:

우리는 다른 데이터 세트에 대해 사전 훈련된 다른 segmentation 전문가를 사용하여 사전 훈련된 Prismer에 대한 추론을 실험합니다. 의미론적 레이블(semantic labels)을 인코딩하기 위해 동일한 언어 모델을 적용했지만, Prismer는 다른 의미론적 정보 집합을 가진 다른 전문가에 대해 제한된 적응성을 보여 현저한 성능 저하를 초래합니다.

3. Free-form Inference on Partial Experts:

비슷하게 우리는 Prismer가 사전 교육 중에 포함된 모든 전문가의 multi-modal features을 얽히게 한다는 것을 발견했습니다. 따라서 추론 중에 일부 전문가만 있으면 성능이 현저하게 저하됩니다. 임의의 수의 전문가에 대해 추론하도록 Prismer를 설계하기 위해 마스킹된 오토 인코딩(masked auto-encoding)과 같은 다른 교육 목표를 사용하려고 시도하지만 결국 fine-tuning 성능이 저하됩니다.

4. Representation of Expert Knowledge:

현재 Prismer 설계에서는 단순성을 위해 modality-specific 후처리를 통해 모든 전문가 레이블을 이미지와 같은 3차원 텐서로 변환합니다. 개체 감지를 일련의 텍스트 토큰으로 변환하는 것과 같이 전문 지식을 나타내는 다른 효율적인 방법이 있습니다. 이는 향후 작업에서 보다 강력한 추론 성능과 보다 안정적인 교육 환경으로 이어질 수 있습니다.

 


출처: PDFchatGPT

확장성 측면에서 Prismer는 다른 비전 언어 모델과 어떻게 비교되는지

- Prismer는 다른 비전 언어 모델보다 확장 가능한 대안입니다. 이는 도메인 전문가의 앙상블을 활용하고 소수의 구성 요소에 대한 교육만 필요로 합니다. 대부분의 네트워크 가중치는 쉽게 사용할 수 있고 사전 교육을 받은 도메인 전문가로부터 상속되며 교육 중에 frozen됩니다. Prismer는 다양한 영역의 전문가를 활용하여 이 전문 지식을 효율적으로 모으고 다양한 시각 언어 추론 작업에 적용할 수 있습니다. 또한, 4페이지에는 강력한 도메인별 전문가의 결합된 힘을 활용하여 교육 중에 Prismer가 뛰어난 데이터 효율성을 달성한다고 언급되어 있습니다. 그 결과 다른 최신 비전 언어 모델과 비슷한 성능을 달성하는 데 필요한 GPU 시간이 크게 줄어듭니다.


Prismer를 실시간 다중 모달 생성 작업에 사용할 수 있는지

- Prismer가 실시간 다중 모달 생성 작업에 사용될 수 있는지 여부에 대한 구체적인 정보가 포함되어 있지 않습니다. 그러나 Prismer는 자동 회귀 방식으로 출력 텍스트를 생성하거나 고정된 완성 세트에서 로그 우도의 순위를 매길 수 있다고 6페이지에 언급되어 있습니다. 이는 Prismer가 실시간으로 출력을 생성할 수 있음을 시사하지만 이는 사용된 특정 구현 및 하드웨어에 따라 다릅니다.


Prismer는 성능을 개선하기 위해 다양한 도메인의 전문 지식을 어떻게 활용하는지

내 소스의 1페이지에는 Prismer가 도메인 전문가 앙상블을 활용하여 성능을 개선한다고 언급되어 있습니다. 대부분의 네트워크 가중치는 쉽게 사용할 수 있고 사전 훈련된 도메인 전문가로부터 상속되며 훈련 중에 동결된 상태로 유지됩니다. Prismer는 다양한 영역의 전문가를 활용하여 이 전문 지식을 효율적으로 모으고 다양한 시각 언어 추론 작업에 적용할 수 있습니다. 또한 2페이지에는 Prismer의 양식별 비전 전문가가 깊이와 같은 낮은 수준의 비전 신호와 인스턴스 및 시맨틱 레이블과 같은 높은 수준의 비전 신호를 포함하여 여러 유형의 시각 정보를 인코딩한다고 언급되어 있습니다. 이 보조 지식은 해당 네트워크 출력에서 직접 획득되며 개방형 비전 언어 추론 작업에서 모델의 성능을 향상시키는 데 사용됩니다. 마지막으로, 14페이지에서 더 많은 전문가가 모델에 더 다양한 도메인 지식을 제공하기 때문에 더 많은 양식 전문가를 추가하면 Prismer의 성능이 향상된다는 점에 주목합니다.


Prismer는 도메인 전문가를 어떻게 활용하여 데이터 및 매개변수 효율성을 달성하는지

- Prismer는 도메인 전문가 앙상블을 활용하여 데이터 및 매개변수 효율성을 달성합니다. Primmer는 소수의 구성 요소에 대한 교육만 필요하며 대부분의 네트워크 가중치는 쉽게 사용할 수 있고 사전 교육을 받은 도메인 전문가로부터 상속되며 교육 중에 고정됩니다. Prismer는 다양한 영역의 전문가를 활용하여 이 전문 지식을 효율적으로 모으고 다양한 시각 언어 추론 작업에 적용할 수 있습니다. 이것은 사전 훈련된 매개변수에 이미 저장된 방대한 양의 웹 규모 지식을 활용하여 달성됩니다.


Prismer는 다양한 시각 언어 추론 작업에 적응할 수 있습니까?

- 예, Prismer는 다양한 시각 언어 추론 작업에 적응할 수 있습니다. Prismer는 모든 시각 언어 추론 작업을 언어 모델링 또는 접두사 언어 모델링 문제로 재구성하는 생성 모델입니다. 예를 들어 다중 모드 토큰(입력 RGB 이미지 및 해당 다중 모드 레이블에서 인코딩됨)과 접두사로 질문이 주어지면 모델은 시각적 질문 응답 작업에 대한 답변을 생성합니다. 다중 모달 토큰이 주어지면 모델은 이미지 캡션 작업에 대한 캡션을 생성합니다. 접두사 프롬프트가 있으면 개방형 설정에서와 같이 자동 회귀 방식으로 출력 텍스트를 샘플링할 수 있습니다. 또는 폐쇄형 설정에서와 같이 고정된 완료 집합에서 로그 우도의 순위를 매길 수 있습니다. (6페이지)


fine-tuning 및 few-shot learning 성능 측면에서 Prismer는 다른 시각 언어 모델과 어떻게 비교됩니까?

- 실험에서 Prismer는 현재 최신 모델과 경쟁할 수 있는 fine-tuning 및 few-shot learning 성능을 달성하는 동시에 최대 2배 더 적은 훈련 데이터를 필요로 합니다. Primmer는 1~2배 더 많은 데이터로 훈련된 많은 최첨단 비전 언어 모델과 경쟁할 수 있는 것으로 나타났습니다. 또한 Prismer는 시끄러운 전문가의 포함에 대해 강력한 견고성을 나타내며 학습 성능은 전문가의 양이나 질이 모두 증가함에 따라 유리하게 확장됩니다. (3페이지)

 

 

728x90
댓글