An Image is Worth 16x16 Words: ViT의 등장

논문: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 저자: Dosovitskiy et al. (Google Brain) 링크: https://arxiv.org/abs/2010.11929

논문 핵심

ViT는 NLP의 Transformer를 거의 수정 없이 이미지 분류에 적용합니다. 이미지를 16×16 패치로 나누어 토큰처럼 처리하는 단순하지만 강력한 접근법입니다.

작동 방식

"An image is split into fixed-size patches, linearly embedded, and fed to a standard Transformer encoder."

224×224 이미지를 16×16 패치 196개로 분할
각 패치를 선형 변환으로 임베딩
Position Embedding 추가
표준 Transformer Encoder에 입력

CNN의 inductive bias(지역성, 이동 불변성) 없이도, 충분한 데이터가 있으면 CNN을 능가합니다.

주요 결과

JFT-300M으로 사전학습 시 ImageNet 88.55% (당시 SOTA)
ImageNet만으로는 CNN에 뒤처짐 → 대규모 데이터 필요 (이후 DeiT가 해결)

실무 시사점

ViT는 "Transformer가 만능인가?"라는 질문에 비전 분야에서도 "Yes"를 답한 논문입니다. NLP와 비전을 동일한 아키텍처로 통합할 수 있는 가능성을 열었으며, 이후 멀티모달 AI의 기반이 됩니다.