목록deeplearning (3)
Deep Learning study
논문: "Big Bird: Transformers for Longer Sequences" (Zaheer et al., NeurIPS 2020)링크: https://arxiv.org/abs/2007.140621. 배경 및 문제 정의전통적인 Transformer 어텐션은 O(N²) 메모리·연산 복잡도로, 시퀀스 길이 N이 커질수록 빠르게 한계에 부딪힙니다.자연어 처리뿐 아니라 생물학(유전체), 패치 기반 이미지 분석(WSI) 등에서 수만 개 토큰을 다뤄야 할 때, 표준 어텐션은 사실상 불가능합니다.BigBird는 이러한 한계를 넘기 위해, 블록‑스파스 구조를 도입해 O(N)에 가까운 복잡도로 긴 시퀀스를 처리할 수 있도록 설계되었습니다.2. 핵심 아이디어: 블록‑스파스 어텐션BigBird의 어텐션 행렬은 세..
Native Sparse Attention 논문 리뷰본 포스트에서는 Native Sparse Attention (NSA) 논문을 심도 있게 분석합니다. NSA는 기존의 Full Attention 방식의 높은 계산 비용 문제를 해결하고, 하드웨어에 최적화된 알고리즘과 end-to-end 학습이 가능한 스파스 어텐션(sparse attention) 메커니즘을 제안합니다. 논문에서는 동적 계층적 스파스 전략을 통해 compressed (압축), selected (선택), sliding window (슬라이딩 윈도우) 세 가지 경로를 활용하여 글로벌 컨텍스트와 로컬 정밀도를 동시에 보존하는 방법을 소개합니다.1. 핵심 요약NSA는 기존 sparse attention 기법들이 inference에 한정되거나 학습 ..
오늘 정리할 논문은 StarGAN이다. 인공지능수업에서 한 프로젝트에서 이 논문을 참고했었는데, 다시금 한 번 읽어보고 정리를 하려한다. 이 논문에서는 현존하는 접근방식들은 두가지이상의 도메인을 다루는데 있어서 제한된 scalability 와 robustness가 있다고한다. 이유인 즉슨, 모든 domain에 대해서 독립적인 모델들이 만들어져야했기 때문이다. 그래서 제안한 것이 StarGAN구조이다. 단 하나의 모델을 가지고 여러가지의 domain들에대해 image-to-image translation을 다루는 것을 수행한다. 동시에 다른 domain을 가진 dataset들을 동시에 학습시킬수있다. (mask vector method) 위의 사진들은 Celeb A 의 데이터셋을 Multi-domain i..