목록AI/papers (32)
Deep Learning study
Segment Anything Model (SAM) 심층 해설 포스트 요약: Meta AI가 제안한 Segment Anything Model(SAM)은 어떤 이미지에서든 점, 박스, 마스크, 텍스트 프롬프트로 객체 분할을 수행하는 범용 세그멘테이션 파운데이션 모델입니다. 논문 양식에 따라 Abstract부터 Conclusion까지 모든 내용을 상세히 분석하며, 아키텍처, 학습 파이프라인, 실험 설정, 성능 결과, 실무 팁을 학생들에게 가르치듯 자세히 설명합니다. Abstract 이 논문에서는 입력 이미지와 프롬프트로부터 즉시 객체 분할을 생성하는 Segment Anything Model (SAM)을 제안합니다. SAM은 대규모 세그멘테이션 데이터셋(LAVIS)을 활용하여 ViT 기반 ..
Interleaved‑Modal Chain‑of‑Thought (ICoT) 논문 심층 해설 포스트 요약: Jun Gao et al. (2024)의 ICoT는 Vision‑Language Models에 text‑only CoT 한계를 극복하고, 이미지와 텍스트를 교차 삽입(interleaving)해 multimodal reasoning을 수행하는 혁신적 방법입니다. Attention‑driven Selection(ADS) 전략으로 원본 이미지 영역을 자동 삽입해 fine‑grained 비전 정보를 보강하고, 세 가지 벤치마크에서 최대 14% 성능·해석력 향상을 달성했습니다. Abstract Chain‑of‑Thought(CoT) prompting은 LLM에 intermediate rea..
Masked Autoencoders Are Scalable Vision Learners (MAE) 논문 심층 해설 포스트 요약: Kaiming He et al. (2022)의 MAE는 Vision Transformer(ViT)를 기반으로, 입력 이미지 패치의 75%를 무작위로 마스킹하고 나머지 25%만 인코더에 입력해 latent 표현을 학습하는 자기지도 학습 기법입니다. 본 해설에서는 논문 양식(Abstract–Introduction–Related Work–Method–Experiments–Discussion–Conclusion)을 따라, 모든 수식 유도·세부 구현·하이퍼파라미터 튜닝 팁·실험 결과를 심층 분석합니다. Abstract This paper presents Masked ..
SAM 2: Promptable Segmentation in Images & Videos 심층 분석 포스트 요약: Meta AI의 Segment Anything Model 2(SAM 2)는 이미지와 비디오를 대상으로 사용자의 점·박스·마스크 프롬프트를 즉시 인식하여 zero‑shot 세그멘테이션을 수행하는 혁신적 비전 파운데이션 모델입니다. 아키텍처·학습 파이프라인·프롬프트 처리, 실험 결과, 그리고 실무 튜닝 팁을 AI 전문가 시점에서 학생들에게 가르치듯 자세히 설명합니다. 1. 서론 전통적 세그멘테이션 모델은 특정 데이터셋과 태스크에 맞춘 supervision이 필요했으나, SAM 2는 사용자의 직관적 프롬프트(점, 박스, 텍스트 마스크 등)만으로 다양한 객체를 즉시 분할할 수 있..
논문: "Big Bird: Transformers for Longer Sequences" (Zaheer et al., NeurIPS 2020)링크: https://arxiv.org/abs/2007.140621. 배경 및 문제 정의전통적인 Transformer 어텐션은 O(N²) 메모리·연산 복잡도로, 시퀀스 길이 N이 커질수록 빠르게 한계에 부딪힙니다.자연어 처리뿐 아니라 생물학(유전체), 패치 기반 이미지 분석(WSI) 등에서 수만 개 토큰을 다뤄야 할 때, 표준 어텐션은 사실상 불가능합니다.BigBird는 이러한 한계를 넘기 위해, 블록‑스파스 구조를 도입해 O(N)에 가까운 복잡도로 긴 시퀀스를 처리할 수 있도록 설계되었습니다.2. 핵심 아이디어: 블록‑스파스 어텐션BigBird의 어텐션 행렬은 세..
Native Sparse Attention 논문 리뷰본 포스트에서는 Native Sparse Attention (NSA) 논문을 심도 있게 분석합니다. NSA는 기존의 Full Attention 방식의 높은 계산 비용 문제를 해결하고, 하드웨어에 최적화된 알고리즘과 end-to-end 학습이 가능한 스파스 어텐션(sparse attention) 메커니즘을 제안합니다. 논문에서는 동적 계층적 스파스 전략을 통해 compressed (압축), selected (선택), sliding window (슬라이딩 윈도우) 세 가지 경로를 활용하여 글로벌 컨텍스트와 로컬 정밀도를 동시에 보존하는 방법을 소개합니다.1. 핵심 요약NSA는 기존 sparse attention 기법들이 inference에 한정되거나 학습 ..
생성 된 이미지를 평가할 때는 두 가지를 고려해 평가한다고 생각할 수 있습니다. Fidelity : 얼마나 실제같은 이미지를 생성하는가. Diversity : GAN이 얼마나 다양한 이미지를 생성하는가. 하지만 GAN 을 평가할 때 가장 많이 쓰이는 FID score 는 단순 두 분포의 거리를 측정하는 방법이기 때문에, 각각에 대한지표를 알 수 없다는 단점이 있습니다. 이렇게 조금은 애매한 지표이지만 그렇다고 GAN이 생성하는 이미지들의 quality를 측정할 마땅한 다른 방법이 딱히 없기에 가장 널리 쓰이고 있죠. Improved Precision and Recall Metric for Assessing Generative Models (GAN 을 평가지표로 Precision 과 Recall 을 처음 ..
오늘 볼 것은 GAN에서 나타나는 mode collapse에대한 문제제기와 이 현상이 생기지 않도록 하는 새로운 방법을 소개하는 논문입니다. 이미지 합성(image synthesis)라하면 가장 먼저 떠오르는 것은 GAN입니다. 하지만 GAN framwork를 사용하는 모델들은 각 input image에 따른 그럴듯한 이미지(plausible image)를 단지 하나, 또는 기껏해야 고정된 수 만큼의 output을 만을 가지게 됩니다. 이논문에서는 semantic segmentation map들로부터 생성하는 이미지에 중점을 두고 같은 semantic layout에 대해서 다양한 형태를 가진 임의의 수 만큼의 이미지를 생성해내는 새로운 방법을 소개합니다. Introduction 현재까지 이미지 생성에 대..