Deep-learning
-
[논문 리뷰] Perceiver AR: general-purpose, long-context autoregressive generation ICML 2022Deep-learning 2022. 9. 27. 11:39
─ 들어가며 ─ Deep mind에서 이번 ICML에 나온 perceiver AR 논문 리뷰입니다. Transformer를 사용한 Autoregressive generation에서 매우 긴 길이에 대해서 memory efficient하게 좋은 성능을 내도록 개량한 모델입니다. Transformer는 sequence modeling을 굉장히 잘 하는 모델로 이미 소문이 나 있습니다. 다만, sequence 길이가 길어질수록 sequence 길이의 제곱에 비례하는 memory가 필요하다는 단점이 있습니다. 따라서, 긴 길이의 sequence modeling은 큰 기업에서나 넘볼 수 있는 수준이었고, 그것도 책 정도로 아주 긴 길이에서는 한번에 학습이 불가능하고 context를 임의로 나누는 것이 불가피하다고..
-
[논문 설명] Learnable Fourier Features for multi-dimensional spatial positional encoding 2Deep-learning 2022. 9. 5. 21:46
─ 들어가며 ─ Learnable Fourier Features for multi-dimensional spatial positional encoding 1 포스팅에서 계속됩니다. 수식: 1. 저자들이 제안하는 positional encoding이 뭐가 좋나요? + 성능을 높이기 위한 추가사항 ① continuous 위치 / Unseen 위치의 inference에서도 잘 동작한다. continuous 위치의 경우 예를 들면, train set에서 (2, 3) 위치와 (4, 5)위치는 등장하는데, discrete embedding에서는 (PEx(2)||PEy(3))과 (PEx(4)||PEy(5)) (||는 concatenate)로 표현됩니다. 여기서 inference때, 만약 ..
-
[논문 요약]OEPG와 PAC Net - ICML 2022 accepted papersDeep-learning 2022. 7. 12. 23:32
해석과 추측(붉은색 bold체로 표시)을 구별하여 읽을 것을 권함 주의) Abstract와 conclusion, 그리고 experiment 결과 부분을 해석하여 contribution 정도만 정리함 1. Omni-granular Ego-semantic Propagation for self-supervised Graph representation learning Ling Yang (Peking University) · Shenda Hong (Peking University) 요약(abstract 내용): ① Unsupervised나 self-supervised로 graph representation learning을 수행 후(pretraining) ② Downstream task로 node-level 혹은..
-
[논문공부] (자세한 리뷰) Masked Autoencoders are Scalable Vision LearnersDeep-learning 2021. 12. 27. 23:43
들어가며: Masked Autoencoders Are Scalable Vision Learners(링크)는 Facebook AI Research(아직은 Facebook으로 되어있는데 meta로 바뀌겠죠?)에서 나온 논문으로, 현재 CVPR 2022에 submit되어 review중인 듯합니다. 간단하게 요약하면, Masked autoencoder는 Masked patch를 복원하는 task로 학습한 것을 pretrained weight로 삼아서 downstream task로 finetuning했을 때 예측 성능이 더 좋다. 는 내용입니다. Language model에서 Transformer 이후 BERT가 등장한 것과 마찬가지로 Vision Transformer(이하 ViT)의 BERT격이 이 MAE라고 ..
-
[논문공부] Denoising Diffusion Probabilistic Models (DDPM) 설명 2Deep-learning 2021. 7. 10. 02:45
─ 들어가며 ─ 이 포스트는 DDPM 설명 1(링크)의 후속 포스트로 학습 방법 및 결과에 대한 포스트(완)입니다. 이론적인 내용과 간략한 설명은 이전 포스트를 확인해주세요 DDPM post1 의 2번 항목에서에서 도출한 loss function은 ①은 VAE의 KL divergence와 비슷한 term이고, ②는 reverse process와 diffusion process의 분포를 매칭시키는(KL divergence를 낮추는) loss이고 ③은 reverse process의 마지막 과정으로, VAE의 reconstruction loss에 대응되는 term이라고 볼 수 있습니다. 3. Loss 설명 및 training technique 이 loss term을 최적화시키는 방법, 그리고 더 좋은 gene..
-
[논문공부] Denoising Diffusion Probabilistic Models (DDPM) 설명Deep-learning 2021. 7. 9. 21:51
─ 들어가며 ─ 심심할때마다 아카이브에서 머신러닝 카테고리에서 그날 올라온 논문들이랑 paperswithcode를 봅니다. 아카이브 추세나 ICLR, ICML 등 주변 지인들 학회 쓰는거 보니까 이번 상반기에는 diffusion model을 많이 변형해서 쓰고 있었습니다. 이전까지는 그런게 있나보다 하고 그냥 새로운 generative model중 하나겠거니 하고 잠깐의 유행이겠거니 하고 넘겼는데 paperswithcode에 어느날 이런게 하나 올라옵니다. https://paperswithcode.com/paper/diffusion-models-beat-gans-on-image-synthesis Papers with Code - Diffusion Models Beat GANs on Image Synthe..
-
[논문과 코드] Attention is all you need *line-by-lineDeep-learning 2020. 7. 1. 15:04
2017년 발표된 sequence to sequence modeling의 신세기를 연 "Attention is all you need"에 대한 article입니다. 3년이 지난 현재까지도 많은 Deep learning 관련 sequence to sequence 논문들이 Transformer model을 기반으로 설계되고 있습니다. Transformer model에 대해 공부하고 이 글을 작성하면서 https://nlpinkorean.github.io/illustrated-transformer/ The Illustrated Transformer 저번 글에서 다뤘던 attention seq2seq 모델에 이어, attention 을 활용한 또 다른 모델인 Transformer 모델에 대해 얘기해보려 합니다...