목록AI (15)
Deep Learning study
논문: "Big Bird: Transformers for Longer Sequences" (Zaheer et al., NeurIPS 2020)링크: https://arxiv.org/abs/2007.140621. 배경 및 문제 정의전통적인 Transformer 어텐션은 O(N²) 메모리·연산 복잡도로, 시퀀스 길이 N이 커질수록 빠르게 한계에 부딪힙니다.자연어 처리뿐 아니라 생물학(유전체), 패치 기반 이미지 분석(WSI) 등에서 수만 개 토큰을 다뤄야 할 때, 표준 어텐션은 사실상 불가능합니다.BigBird는 이러한 한계를 넘기 위해, 블록‑스파스 구조를 도입해 O(N)에 가까운 복잡도로 긴 시퀀스를 처리할 수 있도록 설계되었습니다.2. 핵심 아이디어: 블록‑스파스 어텐션BigBird의 어텐션 행렬은 세..
Native Sparse Attention 논문 리뷰본 포스트에서는 Native Sparse Attention (NSA) 논문을 심도 있게 분석합니다. NSA는 기존의 Full Attention 방식의 높은 계산 비용 문제를 해결하고, 하드웨어에 최적화된 알고리즘과 end-to-end 학습이 가능한 스파스 어텐션(sparse attention) 메커니즘을 제안합니다. 논문에서는 동적 계층적 스파스 전략을 통해 compressed (압축), selected (선택), sliding window (슬라이딩 윈도우) 세 가지 경로를 활용하여 글로벌 컨텍스트와 로컬 정밀도를 동시에 보존하는 방법을 소개합니다.1. 핵심 요약NSA는 기존 sparse attention 기법들이 inference에 한정되거나 학습 ..
torch.nn.functional.pad(input, pad, mode='constant', value=0) 내가 원하는대로 padding을 줄 수 있는 함수이다. pad 를 마지막 dim에만 줄 경우 (pad_left, pad_right) 모양으로 준다. pad 를 마지막 2개의 dim에 줄 경우 (pad_left, pad_right, pad_top, pad_bottom) 모양으로 준다. pad 를 마지막 3개의 dim에 줄 경우 (pad_left, pad_right, pad_top, pad_bottom, pad_front, pad_back) 모양으로 준다. 예제를 보면서 쉽게 생각해보자. >>> t4d = torch.empty(3, 3, 4, 2) #쉽게 이미지를 생각하자 (batch, channe..
오늘 볼 것은 GAN에서 나타나는 mode collapse에대한 문제제기와 이 현상이 생기지 않도록 하는 새로운 방법을 소개하는 논문입니다. 이미지 합성(image synthesis)라하면 가장 먼저 떠오르는 것은 GAN입니다. 하지만 GAN framwork를 사용하는 모델들은 각 input image에 따른 그럴듯한 이미지(plausible image)를 단지 하나, 또는 기껏해야 고정된 수 만큼의 output을 만을 가지게 됩니다. 이논문에서는 semantic segmentation map들로부터 생성하는 이미지에 중점을 두고 같은 semantic layout에 대해서 다양한 형태를 가진 임의의 수 만큼의 이미지를 생성해내는 새로운 방법을 소개합니다. Introduction 현재까지 이미지 생성에 대..
최근 generative network들이 많은 발전을 이루었음에도, 그 이미지 생성에대한 매커니즘은 여전히 잘 알려지지 않았습니다. 그래서 이 논문에서는 explorative sampling algorithm to analyze generation mechanism of DGNNs 을 소개합니다. 이 방법으로 한 쿼리로 부터 동일한 특징을 가진 sample들을 효율적으로 얻을 수 있다고 합니다. Instoduction 일반적으로, 생성모델은 latent space의 한 점(point)을 data space의 한 샘플(sample)에 매핑(map) 합니다. 즉 데이터 인스턴스 들은 latent vector로 임베딩(embedded)되는 것이죠. 그런 latent space 는 모델의 구조로부터 나온 경계..
오늘 살펴볼 논문은 SAGAN 입니다. self-attention을 GAN과 결합한 논문입니다. Attention이라는 것은 쉽게 말하자면 어떤 문장을 예측하는데 전체 입력 문장을 같은 비율로 보는것이 아니라, 예측해야 될 단어와 연관이 있는 단어들에 더 집중(attention)해서 보게하는 것 입니다. 그렇다면 self-Attention은 무엇일까요. 단지 Attention을 자기자신에게 수행하는 것 입니다. Attention에 대한 더 자세한 설명은 여기에서 부터 15.transfomer까지 보시면 더 자세히 알 수 있습니다. Introduction 지금까지의 convolutional GAN들이 생성해낸 샘플들을 보면, multi-class 데이터셋을 학습할때 몇몇의 class들에 대해서는 어려움을 ..
오늘 정리할 논문은 spectral normalization GAN 입니다. (모바일이라면 pc버전으로 보세요 ! ) 논문을 보기전에 이 전의 포스팅인 립시츠 함수와 립시츠상수, Singular value decomposition(SVD), Matrix norm에 대해서 알고 본다면 훨씬 이해가 쉬울것 입니다. ! 이 논문에서는 Discriminator의 학습을 안정화(stabilize)시키기위해서 새로운 weight normalization 기법인 Spectral Normalization을 소개합니다. Introduction GAN의 기본적인 컨셉은 model의 분포와 discriminator를 번갈아가면서 학습시켜 model의 분포가 target분포를 따라가게 만드는 것이죠. 이러한 컨셉은 모두 학습..
오늘은 super resolrution GAN 에 대해서 알아보도록 합시다 ! SRGAN은 딱히 어렵다거나 복잡한 것은 없지만, image super resolution에 관심이 좀 있던터라 쟁여뒀던 논문을 꺼내어 읽어보았습니다. ㅋㅋ 그럼 먼저 super resolution 이 뭔지부터 알아봅시다. 물론 모르는 사람은 없을테지만, 위의 링크에서도 볼 수 있듯이 이미지의 해상도를 높여주는 작업입니다. 즉 저해상도 이미지를 고해상도로 바꾸는 것이죠 ! 여기서 소개할 super resolution 방법은 GAN을 이용한 방법입니다. Introduction Super Resolution(SR)은 computer vision분야에서 많은 주목을 받고있습니다. 많은 SR문제를 해결하고자하는 노력들이 있었지만, 복..