논문: Video generation models as world simulators (Sora Technical Report) 저자: OpenAI 링크: https://openai.com/research/video-generation-models-as-world-simulators
논문 핵심
Sora는 Diffusion Transformer(DiT)를 비디오 생성에 적용한 모델입니다. OpenAI는 이를 "세계 시뮬레이터"로 위치시킵니다.
핵심 아키텍처
"We explore large-scale training of generative models on video data as a path towards building general purpose simulators of the physical world."
- 시공간 패치: 비디오를 시간+공간 차원의 패치로 분할
- Video Compression Network: 비디오를 저차원 잠재 공간으로 압축
- DiT (Diffusion Transformer): U-Net 대신 Transformer를 Diffusion 백본으로 사용
- 가변 해상도: 다양한 종횡비와 해상도의 비디오 처리
Emergent Capabilities
충분히 스케일링하면 나타나는 능력:
- 3D 공간의 일관성 유지
- 물리 법칙의 근사적 이해
- 장시간 일관된 캐릭터와 환경
실무 시사점
Sora는 광고, 교육 콘텐츠, 프로토타입 영상 제작에서 제작 비용을 혁신적으로 줄일 잠재력이 있습니다. 다만 물리 법칙 위반, 할루시네이션 등의 한계는 인지해야 합니다.