Deep Learning study
Segment Anything Model (SAM) 심층 해설 본문
Segment Anything Model (SAM) 심층 해설
포스트 요약: Meta AI가 제안한 Segment Anything Model(SAM)은 어떤 이미지에서든 점, 박스, 마스크, 텍스트 프롬프트로 객체 분할을 수행하는 범용 세그멘테이션 파운데이션 모델입니다. 논문 양식에 따라 Abstract부터 Conclusion까지 모든 내용을 상세히 분석하며, 아키텍처, 학습 파이프라인, 실험 설정, 성능 결과, 실무 팁을 학생들에게 가르치듯 자세히 설명합니다.
Abstract
이 논문에서는 입력 이미지와 프롬프트로부터 즉시 객체 분할을 생성하는 Segment Anything Model (SAM)을 제안합니다. SAM은 대규모 세그멘테이션 데이터셋(LAVIS)을 활용하여 ViT 기반 이미지 인코더와 프롬프트 인코더, 마스크 디코더를 학습합니다. 프롬프트 유형에 무관하게 zero-shot으로 분할 성능을 제공하며, COCO, LVIS, DAVIS 등 다양한 벤치마크에서 최첨단 성능을 달성합니다.
1. Introduction
전통적 세그멘테이션 모델들은 특정 태스크와 데이터셋에 맞춰 학습되어 범용성이 낮았습니다. 이에 비해 SAM은 “어떤 이미지든” 분할할 수 있는 단일 모델을 목표로 합니다. 즉, 사용자가 클릭, 박스, 마스크 또는 자연어 텍스트 프롬프트를 제공하면, SAM이 즉시 해당 객체의 픽셀 마스크를 생성합니다.
SAM의 핵심 아이디어는 다음과 같습니다:
- 범용성: 다양한 프롬프트 유형(point, box, mask, text)을 지원합니다.
- Zero‑shot: 사전 학습된 파운데이션 모델로, 추가 학습 없이 새로운 데이터셋에도 적용할 수 있습니다.
- 대규모 데이터: 11M 이미지, 1B 마스크로 구성된 LAVIS 데이터셋으로 학습합니다.
2. Related Work
2.1 대화형 세그멘테이션
Interactive Image Segmentation 분야에서는 사용자의 클릭이나 드로잉을 통해 점진적으로 마스크를 개선해 왔습니다[1]. 그러나 이러한 모델은 보통 각 프롬프트 유형별로 별도 학습이 필요했습니다.
2.2 파운데이션 모델
파운데이션 비전 모델(Vision Foundation Models)은 대규모 사전학습으로 다양한 다운스트림 태스크에 적용됩니다. SAM은 이 패러다임을 세그멘테이션에 확장한 첫 사례 중 하나입니다.
3. Method
3.1 Architecture
SAM은 세 개의 주요 컴포넌트로 구성됩니다:
- Image Encoder: ViT-Huge/14를 기반으로 이미지 패치를 임베딩하고 global context를 추출합니다.
- Prompt Encoder: 점, 박스, 마스크, 텍스트 프롬프트를 각각 2D 또는 1D 토큰으로 인코딩해 이미지 피처와 정렬합니다.
- Mask Decoder: 이미지 피처와 프롬프트 토큰을 결합하여 픽셀 단위 마스크를 생성하는 lightweight Transformer 디코더입니다.
Mask Decoder는 다중 스케일 피처에 residual 연결을 적용하여, 높은 해상도의 정밀한 마스크를 예측합니다.
3.2 Training Pipeline
SAM의 학습은 두 단계로 이루어집니다:
- Pre‑training on LAVIS: 11M 이미지와 1B 마스크에 대해, 모든 프롬프트 유형을 무작위로 섞어 학습합니다. 손실 함수로는 이진 교차 엔트로피(BCE)를 사용합니다.
- Prompt‑tuning: 하위 태스크(COCO, LVIS 등)에 맞춰 추가 프롬프트 데이터로 디코더를 미세조정(fine-tuning)합니다.
\(\mathcal{L}_{\text{BCE}} = -\frac{1}{HW}\sum_{i=1}^{H}\sum_{j=1}^{W}\bigl[y_{ij}\log\hat y_{ij}+(1-y_{ij})\log(1-\hat y_{ij})\bigr]\)
4. Experiments
4.1 Datasets & Baselines
- COCO: 객체 분할 벤치마크
- LVIS: 장기 꼬리 분포 세그멘테이션
- DAVIS: 비디오 객체 분할
4.2 Main Results
| Dataset | SAM Zero‑shot | 기존 SOTA |
|---|---|---|
| COCO | 55.3 mAP | 48.0 mAP |
| LVIS | 40.1 AP | 32.5 AP |
| DAVIS Val | 83.2 mIoU | 75.4 mIoU |
SAM은 zero‑shot 설정에서 다양한 벤치마크를 크게 앞서며, 범용 세그멘테이션 모델로서의 가치를 입증했습니다.
5. Discussion
SAM은 프롬프트 의존성을 최소화하면서도 다양한 형태의 사용자 입력을 처리할 수 있는 유연성을 제공합니다. 특히 ViT‑Huge 백본의 풍부한 표현력을 활용해, 기존 모델들이 처리하기 어려웠던 복잡한 객체 경계와 소규모 객체에 대해서도 높은 정확도를 달성했습니다. 학습 비용은 크지만, pre‑training 후 zero‑shot 분할이 가능하므로 대규모 배포에 유리합니다.
6. Conclusion & Future Work
본 문서에서는 SAM 논문의 모든 세부를 논문 양식에 맞춰 상세히 해설했습니다. SAM은 세그멘테이션 파운데이션 모델로서 새로운 표준을 제시하며, 향후 다중 모달 확장, 경량화 백본, 실시간 인터랙티브 애플리케이션 적용 등이 유망한 연구 방향입니다.
7. 실습 과제
- 점(Point) 프롬프트와 박스(Box) 프롬프트의 zero‑shot 분할 결과를 COCO에서 비교해 보세요.
- ViT‑Base, ViT‑Large, ViT‑Huge 백본별 성능·추론 속도 trade‑off를 실험해 보세요.
- DAVIS 비디오에서 streaming memory 전략을 모방한 간단한 프레임 간 마스크 보정 기법을 구현해 보세요.
References
- Kirillov, A. et al. (2023). “Segment Anything.” ar5iv: HTML
- Dosovitskiy, A. et al. (2021). “An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale.” ICLR.
- Mahmoudi, N. et al. (2020). “Interactive Image Segmentation.” CVPR.
'AI > papers' 카테고리의 다른 글
| Interleaved‑Modal Chain‑of‑Thought (ICoT) 논문 심층 해설 (0) | 2025.04.18 |
|---|---|
| Masked Autoencoders Are Scalable Vision Learners (MAE) (0) | 2025.04.18 |
| SAM 2: Promptable Segmentation in Images & Videos 심층 분석 (0) | 2025.04.18 |
| Big Bird: Transformers for Longer Sequences 논문 요약 (0) | 2025.04.17 |
| Native Sparse Attention : Hardware-Aligned and NativelyTrainable Sparse Attention (deepseek) (0) | 2025.04.07 |