#멀티모달

Google Gemini 2.0의 네이티브 도구 사용 능력과 에이전트 중심 AI 전략을 분석합니다.

Feb 18, 2026 · 8min

2025년 멀티모달 AI가 비디오 이해, 3D 생성, 음악 작곡까지 영역을 넓히고 있습니다.

Sep 15, 2025 · 4min

OpenAI GPT-4o의 네이티브 멀티모달 통합 접근과 이것이 AI 인터페이스를 어떻게 변화시키는지 분석합니다.

Jun 5, 2025 · 7min

Meta의 Llama 3.2는 1B/3B 경량 모델과 11B/90B 비전 모델을 추가하며 온디바이스 AI를 지원합니다.

Oct 25, 2024 · 6min

OpenAI가 GPT-4o를 발표하며 음성, 이미지, 텍스트를 실시간으로 통합 처리하는 AI를 선보였습니다.

May 15, 2024 · 4min

Google의 Gemini는 처음부터 멀티모달로 설계된 모델로, MMLU에서 GPT-4를 처음 넘어섰습니다.

Dec 10, 2023 · 8min

GPT-4는 텍스트+이미지 입력을 처리하며, 전문가 시험에서 인간 상위 10% 수준을 달성했습니다.

Mar 22, 2023 · 7min

OpenAI가 GPT-4를 출시했습니다. 텍스트와 이미지를 모두 이해하는 멀티모달 능력이 핵심입니다.

Mar 15, 2023 · 6min

DeepMind의 Flamingo는 이미지와 텍스트를 함께 이해하는 few-shot 멀티모달 모델입니다.

Apr 16, 2022 · 8min

텍스트, 이미지, 오디오를 통합 처리하는 멀티모달 AI의 발전을 살펴봅니다.

Sep 15, 2021 · 4min

Perceiver는 이미지, 오디오, 포인트 클라우드 등 다양한 입력을 처리하는 범용 Transformer 아키텍처입니다.

Jun 21, 2021 · 6min

OpenAI의 DALL-E가 텍스트 설명으로 이미지를 생성하며 멀티모달 AI의 가능성을 열었습니다.

Jan 15, 2021 · 4min