#멀티모달

Google Gemini 2.0의 네이티브 도구 사용 능력과 에이전트 중심 AI 전략을 분석합니다.

2026年2月18日 · 8分钟

2025년 멀티모달 AI가 비디오 이해, 3D 생성, 음악 작곡까지 영역을 넓히고 있습니다.

2025年9月15日 · 4分钟

OpenAI GPT-4o의 네이티브 멀티모달 통합 접근과 이것이 AI 인터페이스를 어떻게 변화시키는지 분석합니다.

2025年6月5日 · 7分钟

Meta의 Llama 3.2는 1B/3B 경량 모델과 11B/90B 비전 모델을 추가하며 온디바이스 AI를 지원합니다.

2024年10月25日 · 6分钟

OpenAI가 GPT-4o를 발표하며 음성, 이미지, 텍스트를 실시간으로 통합 처리하는 AI를 선보였습니다.

2024年5月15日 · 4分钟

Google의 Gemini는 처음부터 멀티모달로 설계된 모델로, MMLU에서 GPT-4를 처음 넘어섰습니다.

2023年12月10日 · 8分钟

GPT-4는 텍스트+이미지 입력을 처리하며, 전문가 시험에서 인간 상위 10% 수준을 달성했습니다.

2023年3月22日 · 7分钟

OpenAI가 GPT-4를 출시했습니다. 텍스트와 이미지를 모두 이해하는 멀티모달 능력이 핵심입니다.

2023年3月15日 · 6分钟

DeepMind의 Flamingo는 이미지와 텍스트를 함께 이해하는 few-shot 멀티모달 모델입니다.

2022年4月16日 · 8分钟

텍스트, 이미지, 오디오를 통합 처리하는 멀티모달 AI의 발전을 살펴봅니다.

2021年9月15日 · 4分钟

Perceiver는 이미지, 오디오, 포인트 클라우드 등 다양한 입력을 처리하는 범용 Transformer 아키텍처입니다.

2021年6月21日 · 6分钟

OpenAI의 DALL-E가 텍스트 설명으로 이미지를 생성하며 멀티모달 AI의 가능성을 열었습니다.

2021年1月15日 · 4分钟