논문: Scalable Diffusion Models with Transformers 저자: William Peebles, Saining Xie 링크: https://arxiv.org/abs/2212.09748
논문 핵심
DiT(Diffusion Transformer)는 확산 모델(Diffusion Model)의 백본을 기존 U-Net에서 Transformer로 교체하여, 스케일링 법칙의 혜택을 확산 모델에도 적용합니다.
왜 Transformer인가
"We find that the transformer architecture readily absorbs increased compute in diffusion models."
- U-Net의 한계: 특정 해상도에 맞게 설계, 스케일링 어려움
- Transformer의 장점: 크기를 키울수록 성능 향상이 예측 가능하게 이어짐
- Sora의 기반: OpenAI의 Sora 비디오 생성 모델이 DiT 기반
아키텍처
DiT는 이미지를 패치로 분할 후, 각 패치를 토큰으로 처리합니다:
- 이미지 → VAE 인코더 → latent
- Latent → 패치 분할 → 시퀀스
- 시퀀스 → Transformer 블록 (adaptive LayerNorm으로 조건 주입)
- 출력 → VAE 디코더 → 이미지
성능 비교 (ImageNet 256×256)
| 모델 | FID ↓ | 파라미터 |
|---|---|---|
| U-Net (ADM) | 10.94 | 554M |
| DiT-XL/2 | 2.27 | 675M |
실무 시사점
DiT는 Sora, Stable Diffusion 3 등 최신 생성 모델의 기반이 되었습니다. 이미지/비디오 생성 파이프라인을 설계할 때, Transformer 기반 확산 모델이 새로운 표준이 되고 있음을 인지해야 합니다.