An Image is Worth 16x16 Words: ViT의 등장

論文: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 著者: Dosovitskiy et al. (Google Brain) リンク: https://arxiv.org/abs/2010.11929

論文の核心

ViTはNLPのTransformerをほとんど修正せずに画像分類に適用します。画像を16×16のパッチに分割し、トークンのように処理する単純ですが強力なアプローチです。

動作方式

"画像を固定サイズのパッチに分割し、線形に埋め込んで標準のTransformerエンコーダに入力します。"

224×224の画像を16×16のパッチ196個に分割
各パッチを線形変換で埋め込み
ポジションエンベディングを追加
標準のTransformerエンコーダに入力

CNNの帰納バイアス（局所性、平行移動不変性）なしでも、十分なデータがあればCNNを上回ります。

主要な結果

JFT-300Mで事前学習した場合、ImageNetで88.55%（当時のSOTA）
ImageNetだけではCNNに劣る → 大規模データが必要（後にDeiTが解決）

実務の示唆

ViTは「Transformerは万能か？」という質問に対し、ビジョン分野でも「Yes」と答えた論文です。NLPとビジョンを同一のアーキテクチャで統合できる可能性を開き、その後マルチモーダルAIの基盤となります。