Diffusion Transformer(DiT): 확산 모델의 새로운 백본

U-Net의 한계: 특정 해상도에 맞게 설계, 스케일링 어려움
Transformer의 장점: 크기를 키울수록 성능 향상이 예측 가능하게 이어짐
Sora의 기반: OpenAI의 Sora 비디오 생성 모델이 DiT 기반

논문: Scalable Diffusion Models with Transformers 저자: William Peebles, Saining Xie 링크: https://arxiv.org/abs/2212.09748

논문 핵심

DiT(Diffusion Transformer)는 확산 모델(Diffusion Model)의 백본을 기존 U-Net에서 Transformer로 교체하여, 스케일링 법칙의 혜택을 확산 모델에도 적용합니다.

"We find that the transformer architecture readily absorbs increased compute in diffusion models."

DiT는 이미지를 패치로 분할 후, 각 패치를 토큰으로 처리합니다:

모델	FID ↓	파라미터
U-Net (ADM)	10.94	554M
DiT-XL/2	2.27	675M

DiT는 Sora, Stable Diffusion 3 등 최신 생성 모델의 기반이 되었습니다. 이미지/비디오 생성 파이프라인을 설계할 때, Transformer 기반 확산 모델이 새로운 표준이 되고 있음을 인지해야 합니다.