Autoregressive
-
[논문 리뷰] Perceiver AR: general-purpose, long-context autoregressive generation ICML 2022Deep-learning 2022. 9. 27. 11:39
─ 들어가며 ─ Deep mind에서 이번 ICML에 나온 perceiver AR 논문 리뷰입니다. Transformer를 사용한 Autoregressive generation에서 매우 긴 길이에 대해서 memory efficient하게 좋은 성능을 내도록 개량한 모델입니다. Transformer는 sequence modeling을 굉장히 잘 하는 모델로 이미 소문이 나 있습니다. 다만, sequence 길이가 길어질수록 sequence 길이의 제곱에 비례하는 memory가 필요하다는 단점이 있습니다. 따라서, 긴 길이의 sequence modeling은 큰 기업에서나 넘볼 수 있는 수준이었고, 그것도 책 정도로 아주 긴 길이에서는 한번에 학습이 불가능하고 context를 임의로 나누는 것이 불가피하다고..