논문: Gemini: A Family of Highly Capable Multimodal Models 저자: Gemini Team (Google) 링크: https://arxiv.org/abs/2312.11805
논문 핵심
Gemini는 텍스트, 이미지, 오디오, 비디오, 코드를 처음부터 네이티브 멀티모달로 학습한 모델 시리즈입니다.
모델 라인업
"Gemini Ultra is the first model to achieve human-expert performance on MMLU."
| 모델 | 용도 | MMLU |
|---|---|---|
| Ultra | 복잡한 태스크 | 90.0% |
| Pro | 범용 | 79.1% |
| Nano | 온디바이스 | - |
Ultra는 MMLU에서 인간 전문가 수준(89.8%)을 처음 넘어선 모델입니다.
네이티브 멀티모달의 차별점
GPT-4V가 별도의 비전 인코더를 결합한 것과 달리, Gemini는 모든 모달리티를 단일 모델에서 통합 학습합니다:
- 이미지 속 텍스트 이해
- 비디오의 시간적 흐름 파악
- 오디오와 비디오의 동시 처리
실무 시사점
Gemini의 등장으로 AI 모델 선택지가 다양해졌습니다. 특히 Google 생태계(Workspace, Cloud)와의 통합에서 강점을 가지므로, Google 서비스를 많이 사용하는 기업에서 고려할 만합니다.