論文: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 著者: Dosovitskiy et al. (Google Brain) リンク: https://arxiv.org/abs/2010.11929
論文の核心
ViTはNLPのTransformerをほとんど修正せずに画像分類に適用します。画像を16×16のパッチに分割し、トークンのように処理する単純ですが強力なアプローチです。
動作方式
"画像を固定サイズのパッチに分割し、線形に埋め込んで標準のTransformerエンコーダに入力します。"
- 224×224の画像を16×16のパッチ196個に分割
- 各パッチを線形変換で埋め込み
- ポジションエンベディングを追加
- 標準のTransformerエンコーダに入力
CNNの帰納バイアス(局所性、平行移動不変性)なしでも、十分なデータがあればCNNを上回ります。
主要な結果
- JFT-300Mで事前学習した場合、ImageNetで88.55%(当時のSOTA)
- ImageNetだけではCNNに劣る → 大規模データが必要(後にDeiTが解決)
実務の示唆
ViTは「Transformerは万能か?」という質問に対し、ビジョン分野でも「Yes」と答えた論文です。NLPとビジョンを同一のアーキテクチャで統合できる可能性を開き、その後マルチモーダルAIの基盤となります。