Transformer - Attention is all you need 2017 년에 발명 된 Transformer는 전체 텍스트 입력을 동시에 처리하여 단어 (또는 sub-words) 간의 컨텍스트 관계(contextual relations)를 학습하는 어텐션 메커니즘을 사용한 모델입니다. 트랜스포머는 인코더, 디코더 두 부분으로 구성된다. 인코더는 인풋 텍스트와 벡터의 레터럴 표현읽는다(lateral representation of it (e.g. a vector for each word)). 디코더는 인코더 입력으로으로 부터 변화된 텍스트를 출력한다. Recurrent model은 순차적인 특성이 유지되는 장점이 있었음에도, long-term dependency problem이라는 단점을 가지고 있다. 이와 달리 transformer는 recurrence를 사용하지 않고, attention mechanism만을 이용해 input과 output의 dependency를 알아낸다. Transformer는 attention만 사용해서 연산 량은 매우 줄었음에도 성능이 매우 높게 나오는 모델이다. Attention is All you need 논문에서, transformer는 6개의 encoder와 6개의 decoder로 구성되어 있다고 설명한다. Encoder는 multi-head self-attention과 fully connected feed-forward network 두 개로 구성되어 있고, 각 layer에 residual connection과 layer normalization을 적용한다. Decoder는 세 개의 sub-layers로 구성되어 있다. Illegal masking 방식을 적용한 multi-head self-attention과 encoder의 output을 K, V 로 전달받아 multi-head self-attention을 수행하는 layer와 fully connected feed-forward ...