논문: Video generation models as world simulators (Sora Technical Report) 저자: OpenAI 링크: https://openai.com/research/video-generation-models-as-world-simulators


논문 핵심

Sora는 Diffusion Transformer(DiT)를 비디오 생성에 적용한 모델입니다. OpenAI는 이를 "세계 시뮬레이터"로 위치시킵니다.

핵심 아키텍처

"We explore large-scale training of generative models on video data as a path towards building general purpose simulators of the physical world."

  1. 시공간 패치: 비디오를 시간+공간 차원의 패치로 분할
  2. Video Compression Network: 비디오를 저차원 잠재 공간으로 압축
  3. DiT (Diffusion Transformer): U-Net 대신 Transformer를 Diffusion 백본으로 사용
  4. 가변 해상도: 다양한 종횡비와 해상도의 비디오 처리

Emergent Capabilities

충분히 스케일링하면 나타나는 능력:

  • 3D 공간의 일관성 유지
  • 물리 법칙의 근사적 이해
  • 장시간 일관된 캐릭터와 환경

실무 시사점

Sora는 광고, 교육 콘텐츠, 프로토타입 영상 제작에서 제작 비용을 혁신적으로 줄일 잠재력이 있습니다. 다만 물리 법칙 위반, 할루시네이션 등의 한계는 인지해야 합니다.