Sora Technical Report: 비디오 생성의 기술적 해부

논문: Video generation models as world simulators (Sora Technical Report) 저자: OpenAI 링크: https://openai.com/research/video-generation-models-as-world-simulators

논문 핵심

Sora는 Diffusion Transformer(DiT)를 비디오 생성에 적용한 모델입니다. OpenAI는 이를 "세계 시뮬레이터"로 위치시킵니다.

핵심 아키텍처

"We explore large-scale training of generative models on video data as a path towards building general purpose simulators of the physical world."

시공간 패치: 비디오를 시간+공간 차원의 패치로 분할
Video Compression Network: 비디오를 저차원 잠재 공간으로 압축
DiT (Diffusion Transformer): U-Net 대신 Transformer를 Diffusion 백본으로 사용
가변 해상도: 다양한 종횡비와 해상도의 비디오 처리

Emergent Capabilities

충분히 스케일링하면 나타나는 능력:

3D 공간의 일관성 유지
물리 법칙의 근사적 이해
장시간 일관된 캐릭터와 환경

실무 시사점

Sora는 광고, 교육 콘텐츠, 프로토타입 영상 제작에서 제작 비용을 혁신적으로 줄일 잠재력이 있습니다. 다만 물리 법칙 위반, 할루시네이션 등의 한계는 인지해야 합니다.