#멀티모달
멀티모달 태그가 붙은 모든 글
Google Gemini 2.0의 네이티브 도구 사용 능력과 에이전트 중심 AI 전략을 분석합니다.
2025년 멀티모달 AI가 비디오 이해, 3D 생성, 음악 작곡까지 영역을 넓히고 있습니다.
OpenAI GPT-4o의 네이티브 멀티모달 통합 접근과 이것이 AI 인터페이스를 어떻게 변화시키는지 분석합니다.
Meta의 Llama 3.2는 1B/3B 경량 모델과 11B/90B 비전 모델을 추가하며 온디바이스 AI를 지원합니다.
OpenAI가 GPT-4o를 발표하며 음성, 이미지, 텍스트를 실시간으로 통합 처리하는 AI를 선보였습니다.
Google의 Gemini는 처음부터 멀티모달로 설계된 모델로, MMLU에서 GPT-4를 처음 넘어섰습니다.
GPT-4는 텍스트+이미지 입력을 처리하며, 전문가 시험에서 인간 상위 10% 수준을 달성했습니다.
OpenAI가 GPT-4를 출시했습니다. 텍스트와 이미지를 모두 이해하는 멀티모달 능력이 핵심입니다.
DeepMind의 Flamingo는 이미지와 텍스트를 함께 이해하는 few-shot 멀티모달 모델입니다.
텍스트, 이미지, 오디오를 통합 처리하는 멀티모달 AI의 발전을 살펴봅니다.
Perceiver는 이미지, 오디오, 포인트 클라우드 등 다양한 입력을 처리하는 범용 Transformer 아키텍처입니다.
OpenAI의 DALL-E가 텍스트 설명으로 이미지를 생성하며 멀티모달 AI의 가능성을 열었습니다.