목록AI/papers (26)
Deep Learning study
오늘은 Cycle GAN에 대해서 알아보자 ! 보통 image-to-image translation모델을 학습시킬때 training data 로 input image와 output image의 pair를 사용하게 된다. 예를들면 모네의 사진을 실제 사진처럼 바꾸는 모델을 만들려고한다면, 모네의 그림과 모네의 그림의 배경이 되는 풍경 사진이 pair로 존재해야한다. 하지만 translation에서, 대다수의 경우에는 짝이 지어진 training data를 구하기는 매우 힘들다. 그래서 이 논문에서 paired example 없이 source domain(X)에서 target domain(Y)으로 image를 변환(translate)하는 방법을 소개한다. 즉 이논문의 목표는 G(X)의 image distri..
인공지능 수업의 프로젝트로.. Face aging 모델을 만들어 보려 한다. 논문이 사실 특별한 내용이 있는것은 아니고 생각보다 간단하다. 일단 본론으로 들어가기 전에 conditional GAN부터 조금 알아보자. Conditional Generative Adversarial Nets 원래 GAN은 임의의 노이즈를 input으로 주면 generator도 역시 임의의 값을 생성해 낸다. 즉, 어떠한 output을 가져올지는 모른다는 말이다. 그래서 이 논문에서 하고자 하는것은, 노이즈와 함께 임의의 condition을 같이 주어 output을 원하는 방향으로 뽑아내보자 하는것이다. 방법은 간단하다. input 에 condition에 해당하는 y를 concat하여 Discriminator 와 Generat..
오늘 정리할 논문은 StarGAN이다. 인공지능수업에서 한 프로젝트에서 이 논문을 참고했었는데, 다시금 한 번 읽어보고 정리를 하려한다. 이 논문에서는 현존하는 접근방식들은 두가지이상의 도메인을 다루는데 있어서 제한된 scalability 와 robustness가 있다고한다. 이유인 즉슨, 모든 domain에 대해서 독립적인 모델들이 만들어져야했기 때문이다. 그래서 제안한 것이 StarGAN구조이다. 단 하나의 모델을 가지고 여러가지의 domain들에대해 image-to-image translation을 다루는 것을 수행한다. 동시에 다른 domain을 가진 dataset들을 동시에 학습시킬수있다. (mask vector method) 위의 사진들은 Celeb A 의 데이터셋을 Multi-domain i..
오늘 정리 할 논문은 FCN에 이어서 U-Net. 이미지 segmentation하면 항상 나오는 논문인것같다. 이 논문을 제일 처음 접한것은 다른 이유가 있었지만 생략.. ㅎ 좋은일은 아니었기때문에 .. 여튼 그럼 논문으로 들어가 보도록 하자. 이 논문에서 소개할 것은 크게는 두가지 이다. 하나는 network(모델의 구조)이고, 다른 하나는 data augmentation을 활용했다는 것이다. 언제나 그렇듯이 이맘때쯤 나온 논문들의 introduction의 도입부는 항상 비슷한것 같다. '최근 몇년간 deep convolutional netowrks는 이미지 인식 분야에서 뛰어난 성능을 보여왔다' ... 등등의 말.. 여기도 비슷말들이 주욱 있다. classification분야에서는 네트워크의 출력으로..
이번에 정리해 볼 논문은 FCN이다. image segmentation에서 기초가되는 논문.? 이라고 생각돼서 한 번 정리를 해보려고 한다. 여기서 이야기하는 방법론은 단순하면서 간단하다. FCN에서는 기존의 classification에 사용되던 모델들을 이용하여 tranfer learning을 하게 된다. 하지만 기존의 classification의 모델들은 class 분류를 위해 네트워크의 마지막엔 항상 Fully connected layer(이하 Fc layer)가 삽입되게 되는데 이는 image segmentation에는 적합하지 않다. 왜냐하면 Fc layer를 사용하기 위해서는 고정된 크기의 input만을 받아야하며, 1차원적인 정보만을 가지고 있기 때문에 원하는 2차원적인 정보(위치정보 등,,..
최근에( 여기서 최근은 이 논문의 저자가 논문을 썼을 당시를 말한다..)보여지는 여러 결과들이 network의 깊이가 매우 중요하다는 것이 드러나고 있다. 그 예로 ImageNet dataset challenge의 결과를 보면, 좋은 성과를 낸 것들은 모두 very deep한 모델들 이였다. 하지만 과연 network의 깊이만 깊어진다고(layer 들이 많아짐) 더 좋은 network가 될까? 물론 그것은 아니다. 가장 흔히 발생하는 vanishing/exploding gradients의 문제가 있다. 하지만 이러한 문제들은 Batch Norm 과 같은 방법으로 많은 부분 해결이 가능하다. 또한 normalized initialization, intermediate normaliation layer를 사..
오늘은 입대한 이래로 처음으로 읽어본 논문을 정리해보려고 한다. 이 논문은 captcha solver 를 GAN을 이용해 구현한 내용이다. 흔히 captcha는사이트 회원가입을할때 많이 볼 수 있을것이다. captcha 는 사람과 프로그램을 구별하기 위한 방법으로 위의 사진과 같은 형태를 가지고 있다. text를 프로그램이 인식하기 힘들도록 글자를 서로 overlap 시킨다던가 사이에 선을 그어놓고나 , 글자를 왜곡시키고 노이즈가 있는 배경을 사용하는 등의 방법을 사용한다. 이 논문에 따르면 이전에도 머신러닝을 사용한 captcha solver에 대한 연구들이 있었지만, 사람의 손을 많이 타고 (데이터 라벨링, 데이터 수집, 전처리 등..) 많은 데이터를 수집해야하는 등의 불편함이 있었다고한다.이런 말을..
You Only Look Once: Unified, Real-Time Object Detection 오늘 정리할 것은 YOLO ~ YOLO 는 you only live once 라는 말로 잘 알고 있을 것 이지만, 여기서는 you only look once ! 뛰어난 작명 센스 ... 기존의 R-CNN에서는 region proposal 을 따로 찾고 bounding box 를 찾고 class 분류를 했다. 그러므로 region proposal 과정에서의 오버헤드가 컸기 때문에 성능향상에 어려움이 있었다. 하지만 YOLO는 grid방식을 이용하여 region proposal 의 오버헤드를 없앴다. grid 방식을 사용하면 그 grid cell 하나하나가 proposal 이 되기 때문에 오버헤드가 없어지는 ..