논문: Segment Anything 저자: Kirillov et al. (Meta AI) 링크: https://arxiv.org/abs/2304.02643
논문 핵심
SAM(Segment Anything Model)은 점, 박스, 텍스트 등 다양한 프롬프트로 이미지의 어떤 객체든 분할할 수 있는 Foundation Model입니다.
핵심 구성
"We build the largest segmentation dataset to date, with over 1 billion masks on 11 million images."
- SA-1B 데이터셋: 1,100만 이미지, 11억 개 마스크 — 역대 최대 분할 데이터셋
- Image Encoder: ViT-H로 이미지 특징 추출
- Prompt Encoder: 점, 박스, 마스크, 텍스트 프롬프트 인코딩
- Mask Decoder: 경량 디코더로 빠른 마스크 생성
제로샷 전이
학습 시 보지 못한 객체와 도메인에서도 분할 가능:
- 의료 이미지 (세포, 종양)
- 위성 이미지 (건물, 도로)
- 수중 이미지 (산호, 물고기)
실무 시사점
SAM은 이미지 분할의 GPT-3 모먼트입니다. 이전에는 각 도메인별로 분할 모델을 따로 학습해야 했지만, SAM 하나로 대부분의 분할 문제를 해결할 수 있습니다. 의료, 제조, 농업 등에서의 활용 잠재력이 큽니다.