论文:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 作者:Dosovitskiy 等人(Google Brain) 链接:https://arxiv.org/abs/2010.11929
论文核心
ViT 几乎在没有修改的情况下,将 NLP 的 Transformer 应用于图像分类。通过将图像划分为 16×16 的补丁并像处理标记一样处理,这是一个简单但强大的方法。
运作方式
“图像被分割成固定大小的补丁,线性嵌入,然后输入到标准的 Transformer 编码器中。”
- 将 224×224 图像分为 196 个 16×16 的补丁
- 通过线性变换对每个补丁进行嵌入
- 添加位置嵌入
- 输入到标准 Transformer 编码器中
即使没有 CNN 的归纳偏置(局部性、平移不变性),在足够的数据情况下,也能超越 CNN。
主要结果
- 用 JFT-300M 进行预训练时,ImageNet 达到 88.55%(当时的 SOTA)
- 仅用 ImageNet 时落后于 CNN → 需要大规模数据(后来的 DeiT 解决了这个问题)
实务启示
ViT 是在视觉领域中对“Transformer 是万能的吗?”这一问题回答“是”的论文。它开启了用相同架构整合 NLP 和视觉的可能性,并成为之后多模态 AI 的基础。