논문: Segment Anything 저자: Kirillov et al. (Meta AI) 링크: https://arxiv.org/abs/2304.02643


논문 핵심

SAM(Segment Anything Model)은 점, 박스, 텍스트 등 다양한 프롬프트로 이미지의 어떤 객체든 분할할 수 있는 Foundation Model입니다.

핵심 구성

"We build the largest segmentation dataset to date, with over 1 billion masks on 11 million images."

  1. SA-1B 데이터셋: 1,100만 이미지, 11억 개 마스크 — 역대 최대 분할 데이터셋
  2. Image Encoder: ViT-H로 이미지 특징 추출
  3. Prompt Encoder: 점, 박스, 마스크, 텍스트 프롬프트 인코딩
  4. Mask Decoder: 경량 디코더로 빠른 마스크 생성

제로샷 전이

학습 시 보지 못한 객체와 도메인에서도 분할 가능:

  • 의료 이미지 (세포, 종양)
  • 위성 이미지 (건물, 도로)
  • 수중 이미지 (산호, 물고기)

실무 시사점

SAM은 이미지 분할의 GPT-3 모먼트입니다. 이전에는 각 도메인별로 분할 모델을 따로 학습해야 했지만, SAM 하나로 대부분의 분할 문제를 해결할 수 있습니다. 의료, 제조, 농업 등에서의 활용 잠재력이 큽니다.