Flamingo: Few-Shot 멀티모달 학습

논문: Flamingo: a Visual Language Model for Few-Shot Learning 저자: Alayrac et al. (DeepMind) 링크: https://arxiv.org/abs/2204.14198

논문 핵심

Flamingo는 이미지와 텍스트가 인터리빙된 입력을 처리하여, few-shot으로 다양한 비전-언어 태스크를 수행하는 모델입니다.

"Flamingo bridges powerful pretrained vision-only and language-only models."

비전 인코더와 언어 모델은 고정하고, Cross-Attention 레이어만 학습합니다.

4-shot으로도:

Flamingo의 "기존 모델을 수정하지 않고 연결한다"는 설계 철학은, GPT-4V, Gemini 등 현재 멀티모달 모델의 기반이 됩니다. 기업이 보유한 이미지+텍스트 데이터를 활용한 AI 서비스 구축에 참고할 수 있는 접근법입니다.