#멀티모달

멀티모달 태그가 붙은 모든 글

Gemini 2.0과 구글의 AI 에이전트 전략

Google Gemini 2.0의 네이티브 도구 사용 능력과 에이전트 중심 AI 전략을 분석합니다.

· 8分钟

AI 멀티모달의 성숙: 비디오, 3D, 음악까지

2025년 멀티모달 AI가 비디오 이해, 3D 생성, 음악 작곡까지 영역을 넓히고 있습니다.

· 4分钟

GPT-4o와 네이티브 멀티모달 AI의 시대

OpenAI GPT-4o의 네이티브 멀티모달 통합 접근과 이것이 AI 인터페이스를 어떻게 변화시키는지 분석합니다.

· 7分钟

Llama 3.2: 온디바이스 멀티모달 LLM

Meta의 Llama 3.2는 1B/3B 경량 모델과 11B/90B 비전 모델을 추가하며 온디바이스 AI를 지원합니다.

· 6分钟

GPT-4o: 실시간 멀티모달 AI의 탄생

OpenAI가 GPT-4o를 발표하며 음성, 이미지, 텍스트를 실시간으로 통합 처리하는 AI를 선보였습니다.

· 4分钟

Gemini: Google의 네이티브 멀티모달 모델

Google의 Gemini는 처음부터 멀티모달로 설계된 모델로, MMLU에서 GPT-4를 처음 넘어섰습니다.

· 8分钟

GPT-4 Technical Report: 멀티모달 AI의 도약

GPT-4는 텍스트+이미지 입력을 처리하며, 전문가 시험에서 인간 상위 10% 수준을 달성했습니다.

· 7分钟

GPT-4 출시: 멀티모달 AI의 시대

OpenAI가 GPT-4를 출시했습니다. 텍스트와 이미지를 모두 이해하는 멀티모달 능력이 핵심입니다.

· 6分钟

Flamingo: Few-Shot 멀티모달 학습

DeepMind의 Flamingo는 이미지와 텍스트를 함께 이해하는 few-shot 멀티모달 모델입니다.

· 8分钟

멀티모달 AI: 텍스트, 이미지, 오디오를 넘나드는 기술

텍스트, 이미지, 오디오를 통합 처리하는 멀티모달 AI의 발전을 살펴봅니다.

· 4分钟

Perceiver: 모든 모달리티를 위한 범용 아키텍처

Perceiver는 이미지, 오디오, 포인트 클라우드 등 다양한 입력을 처리하는 범용 Transformer 아키텍처입니다.

· 6分钟

DALL-E: 텍스트에서 이미지를 만드는 AI의 등장

OpenAI의 DALL-E가 텍스트 설명으로 이미지를 생성하며 멀티모달 AI의 가능성을 열었습니다.

· 4分钟