An Image is Worth 16x16 Words: ViT의 등장

论文：An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 作者：Dosovitskiy 等人（Google Brain）链接：https://arxiv.org/abs/2010.11929

论文核心

ViT 几乎在没有修改的情况下，将 NLP 的 Transformer 应用于图像分类。通过将图像划分为 16×16 的补丁并像处理标记一样处理，这是一个简单但强大的方法。

“图像被分割成固定大小的补丁，线性嵌入，然后输入到标准的 Transformer 编码器中。”

即使没有 CNN 的归纳偏置（局部性、平移不变性），在足够的数据情况下，也能超越 CNN。

ViT 是在视觉领域中对“Transformer 是万能的吗？”这一问题回答“是”的论文。它开启了用相同架构整合 NLP 和视觉的可能性，并成为之后多模态 AI 的基础。