Deep Learning study
Segment Anything Model (SAM) 심층 해설 포스트 요약: Meta AI가 제안한 Segment Anything Model(SAM)은 어떤 이미지에서든 점, 박스, 마스크, 텍스트 프롬프트로 객체 분할을 수행하는 범용 세그멘테이션 파운데이션 모델입니다. 논문 양식에 따라 Abstract부터 Conclusion까지 모든 내용을 상세히 분석하며, 아키텍처, 학습 파이프라인, 실험 설정, 성능 결과, 실무 팁을 학생들에게 가르치듯 자세히 설명합니다. Abstract 이 논문에서는 입력 이미지와 프롬프트로부터 즉시 객체 분할을 생성하는 Segment Anything Model (SAM)을 제안합니다. SAM은 대규모 세그멘테이션 데이터셋(LAVIS)을 활용하여 ViT 기반 ..
Interleaved‑Modal Chain‑of‑Thought (ICoT) 논문 심층 해설 포스트 요약: Jun Gao et al. (2024)의 ICoT는 Vision‑Language Models에 text‑only CoT 한계를 극복하고, 이미지와 텍스트를 교차 삽입(interleaving)해 multimodal reasoning을 수행하는 혁신적 방법입니다. Attention‑driven Selection(ADS) 전략으로 원본 이미지 영역을 자동 삽입해 fine‑grained 비전 정보를 보강하고, 세 가지 벤치마크에서 최대 14% 성능·해석력 향상을 달성했습니다. Abstract Chain‑of‑Thought(CoT) prompting은 LLM에 intermediate rea..
Masked Autoencoders Are Scalable Vision Learners (MAE) 논문 심층 해설 포스트 요약: Kaiming He et al. (2022)의 MAE는 Vision Transformer(ViT)를 기반으로, 입력 이미지 패치의 75%를 무작위로 마스킹하고 나머지 25%만 인코더에 입력해 latent 표현을 학습하는 자기지도 학습 기법입니다. 본 해설에서는 논문 양식(Abstract–Introduction–Related Work–Method–Experiments–Discussion–Conclusion)을 따라, 모든 수식 유도·세부 구현·하이퍼파라미터 튜닝 팁·실험 결과를 심층 분석합니다. Abstract This paper presents Masked ..
SAM 2: Promptable Segmentation in Images & Videos 심층 분석 포스트 요약: Meta AI의 Segment Anything Model 2(SAM 2)는 이미지와 비디오를 대상으로 사용자의 점·박스·마스크 프롬프트를 즉시 인식하여 zero‑shot 세그멘테이션을 수행하는 혁신적 비전 파운데이션 모델입니다. 아키텍처·학습 파이프라인·프롬프트 처리, 실험 결과, 그리고 실무 튜닝 팁을 AI 전문가 시점에서 학생들에게 가르치듯 자세히 설명합니다. 1. 서론 전통적 세그멘테이션 모델은 특정 데이터셋과 태스크에 맞춘 supervision이 필요했으나, SAM 2는 사용자의 직관적 프롬프트(점, 박스, 텍스트 마스크 등)만으로 다양한 객체를 즉시 분할할 수 있..
Self‑Attention 심층 분석: 수식·구현·튜닝 포스트 요약: Transformer 기반 모델의 핵심 구성 요소인 Self‑Attention 메커니즘을 수학적으로 유도하고, PyTorch 구현 예제와 함께 주요 하이퍼파라미터(머리 수, 차원, 드롭아웃) 튜닝 팁을 상세히 살펴봅니다. 1. 서론 Self‑Attention은 입력 시퀀스 내 모든 위치가 서로를 참조하여 가중합을 계산하는 연산으로, 긴 거리 종속성(long‑range dependency)을 효과적으로 학습합니다. Vaswani et al.(2017)의 “Attention Is All You Need”에서 제시된 이 메커니즘은 이후 BERT, GPT, ViT 등 대부분의 최신 모델에 적용되었습니다[1]. 2. 수..
Self‑Supervised Learning(SSL) 심층 가이드: Contrastive vs Generative 포스트 요약: 라벨이 없는 대규모 데이터로부터 유용한 표현을 학습하는 Self‑Supervised Learning의 원리와 기법을 깊이 있게 다룹니다. Autoencoder 계열의 Generative SSL, SimCLR/ MoCo/ BYOL의 Contrastive SSL, 최신 CLIP·DINO까지 수식 유도·구현 예제·실험 팁을 총망라했습니다. 1. 서론: Self‑Supervised Learning의 필요성 딥러닝은 대량의 라벨된 데이터에 의존하지만, 라벨링 비용이 급증하며 한계에 봉착했습니다. Self‑Supervised Learning(SSL)은 데이터 자체에서 ..