Segment Anything Model (SAM): 범용 이미지 분할

SA-1B 데이터셋: 1,100만 이미지, 11억 개 마스크 — 역대 최대 분할 데이터셋
Image Encoder: ViT-H로 이미지 특징 추출
Prompt Encoder: 점, 박스, 마스크, 텍스트 프롬프트 인코딩
Mask Decoder: 경량 디코더로 빠른 마스크 생성

논문: Segment Anything 저자: Kirillov et al. (Meta AI) 링크: https://arxiv.org/abs/2304.02643

논문 핵심

SAM(Segment Anything Model)은 점, 박스, 텍스트 등 다양한 프롬프트로 이미지의 어떤 객체든 분할할 수 있는 Foundation Model입니다.

"We build the largest segmentation dataset to date, with over 1 billion masks on 11 million images."

학습 시 보지 못한 객체와 도메인에서도 분할 가능:

SAM은 이미지 분할의 GPT-3 모먼트입니다. 이전에는 각 도메인별로 분할 모델을 따로 학습해야 했지만, SAM 하나로 대부분의 분할 문제를 해결할 수 있습니다. 의료, 제조, 농업 등에서의 활용 잠재력이 큽니다.