논문: Flamingo: a Visual Language Model for Few-Shot Learning 저자: Alayrac et al. (DeepMind) 링크: https://arxiv.org/abs/2204.14198


논문 핵심

Flamingo는 이미지와 텍스트가 인터리빙된 입력을 처리하여, few-shot으로 다양한 비전-언어 태스크를 수행하는 모델입니다.

아키텍처

"Flamingo bridges powerful pretrained vision-only and language-only models."

  1. Vision Encoder (고정): NFNet 기반 이미지 특징 추출
  2. Perceiver Resampler: 가변 크기의 이미지 특징을 고정 크기로 변환
  3. Gated Cross-Attention: 언어 모델 레이어 사이에 비전 정보를 주입
  4. Language Model (고정): Chinchilla 70B

비전 인코더와 언어 모델은 고정하고, Cross-Attention 레이어만 학습합니다.

Few-Shot 능력

4-shot으로도:

  • VQAv2: 56.3 (SOTA fine-tuned 모델의 80% 수준)
  • OK-VQA: 57.8 (fine-tuned SOTA 능가!)

실무 시사점

Flamingo의 "기존 모델을 수정하지 않고 연결한다"는 설계 철학은, GPT-4V, Gemini 등 현재 멀티모달 모델의 기반이 됩니다. 기업이 보유한 이미지+텍스트 데이터를 활용한 AI 서비스 구축에 참고할 수 있는 접근법입니다.