論文: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 著者: Dosovitskiy et al. (Google Brain) リンク: https://arxiv.org/abs/2010.11929


論文の核心

ViTはNLPのTransformerをほとんど修正せずに画像分類に適用します。画像を16×16のパッチに分割し、トークンのように処理する単純ですが強力なアプローチです。

動作方式

"画像を固定サイズのパッチに分割し、線形に埋め込んで標準のTransformerエンコーダに入力します。"

  1. 224×224の画像を16×16のパッチ196個に分割
  2. 各パッチを線形変換で埋め込み
  3. ポジションエンベディングを追加
  4. 標準のTransformerエンコーダに入力

CNNの帰納バイアス(局所性、平行移動不変性)なしでも、十分なデータがあればCNNを上回ります。

主要な結果

  • JFT-300Mで事前学習した場合、ImageNetで88.55%(当時のSOTA)
  • ImageNetだけではCNNに劣る → 大規模データが必要(後にDeiTが解決)

実務の示唆

ViTは「Transformerは万能か?」という質問に対し、ビジョン分野でも「Yes」と答えた論文です。NLPとビジョンを同一のアーキテクチャで統合できる可能性を開き、その後マルチモーダルAIの基盤となります。