Gemini: Google의 네이티브 멀티모달 모델

논문: Gemini: A Family of Highly Capable Multimodal Models 저자: Gemini Team (Google) 링크: https://arxiv.org/abs/2312.11805

논문 핵심

Gemini는 텍스트, 이미지, 오디오, 비디오, 코드를 처음부터 네이티브 멀티모달로 학습한 모델 시리즈입니다.

"Gemini Ultra is the first model to achieve human-expert performance on MMLU."

Ultra는 MMLU에서 인간 전문가 수준(89.8%)을 처음 넘어선 모델입니다.

GPT-4V가 별도의 비전 인코더를 결합한 것과 달리, Gemini는 모든 모달리티를 단일 모델에서 통합 학습합니다:

Gemini의 등장으로 AI 모델 선택지가 다양해졌습니다. 특히 Google 생태계(Workspace, Cloud)와의 통합에서 강점을 가지므로, Google 서비스를 많이 사용하는 기업에서 고려할 만합니다.