논문: Gemini: A Family of Highly Capable Multimodal Models 저자: Gemini Team (Google) 링크: https://arxiv.org/abs/2312.11805


논문 핵심

Gemini는 텍스트, 이미지, 오디오, 비디오, 코드를 처음부터 네이티브 멀티모달로 학습한 모델 시리즈입니다.

모델 라인업

"Gemini Ultra is the first model to achieve human-expert performance on MMLU."

모델 용도 MMLU
Ultra 복잡한 태스크 90.0%
Pro 범용 79.1%
Nano 온디바이스 -

Ultra는 MMLU에서 인간 전문가 수준(89.8%)을 처음 넘어선 모델입니다.

네이티브 멀티모달의 차별점

GPT-4V가 별도의 비전 인코더를 결합한 것과 달리, Gemini는 모든 모달리티를 단일 모델에서 통합 학습합니다:

  • 이미지 속 텍스트 이해
  • 비디오의 시간적 흐름 파악
  • 오디오와 비디오의 동시 처리

실무 시사점

Gemini의 등장으로 AI 모델 선택지가 다양해졌습니다. 특히 Google 생태계(Workspace, Cloud)와의 통합에서 강점을 가지므로, Google 서비스를 많이 사용하는 기업에서 고려할 만합니다.