[Deep Learning-딥러닝]Transformer - Attention is all you need

Transformer - Attention is all you need

2017 년에 발명 된 Transformer는 전체 텍스트 입력을 동시에 처리하여 단어 (또는 sub-words) 간의 컨텍스트 관계(contextual relations)를 학습하는 어텐션 메커니즘을 사용한 모델입니다. 트랜스포머는 인코더, 디코더 두 부분으로 구성된다. 인코더는 인풋 텍스트와 벡터의 레터럴 표현읽는다(lateral representation of it (e.g. a vector for each word)).

디코더는 인코더 입력으로으로 부터 변화된 텍스트를 출력한다.

Recurrent model은 순차적인 특성이 유지되는 장점이 있었음에도, long-term dependency problem이라는 단점을 가지고 있다. 이와 달리 transformer는 recurrence를 사용하지 않고, attention mechanism만을 이용해 input과 output의 dependency를 알아낸다. Transformer는 attention만 사용해서 연산 량은 매우 줄었음에도 성능이 매우 높게 나오는 모델이다.

Attention is All you need 논문에서, transformer는 6개의 encoder와 6개의 decoder로 구성되어 있다고 설명한다.

Encoder는 multi-head self-attention과 fully connected feed-forward network 두 개로 구성되어 있고, 각 layer에 residual connection과 layer normalization을 적용한다.

Decoder는 세 개의 sub-layers로 구성되어 있다. Illegal masking 방식을 적용한 multi-head self-attention과 encoder의 output을 K, V 로 전달받아 multi-head self-attention을 수행하는 layer와 fully connected feed-forward network로 구성되어 있다. Decoder의 각 layer에도 residual connection과 layer normalization을 적용한다.

위 그림에서 빨간색이 인코더, 파란색이 디코더를 가르키고, 자세한 설명은 다음과 같습니다.

주황색 : 인코더에서 Self-Attention이 일어나는 부분
하늘색 : 디코더에서 Self-Attention이 일어나는 부분
노란색 : 인코더와 디코더의 Attention이 일어나는 부분
Shifted right: 이전 output embedding을 참고

네트워크 특징

Seq2seq와 유사한 구조로, Encoder - Decoder로 구성
Scaled Dot-Product Attention과, 이를 병렬로 나열한 Multi-Head Attention 알고리즘
병렬 연산이므로 위치를 알수 없으므로 입력 단어의 위치를 표현하기 위해 Positional Encoding 사용

Self-Attention

어텐션 함수는 주어진 '쿼리(Query)'에 대해서 모든 '키(Key)'와의 유사도를 각각 구합니다. 그리고 구해낸 이 유사도를 가중치로 하여 키와 맵핑되어있는 각각의 '값(Value)'에 반영해줍니다. 그리고 유사도가 반영된 '값(Value)'을 모두 가중합하여 리턴합니다.

여기까지는 앞서 배운 어텐션의 개념입니다. 그런데 어텐션 중에서는 셀프 어텐션(self-attention)이라는 것이 있습니다. 단지 어텐션을 자기 자신에게 수행한다는 의미입니다.

내용 추가필요

Q, K, V가 모두 같은것, RNN구조를 대체, 병렬처리 가능

Q : 입력 문장의 모든 단어 벡터들

K : 입력 문장의 모든 단어 벡터들

V : 입력 문장의 모든 단어 벡터들

네트워크 수행 절차

1. Positional-wise Encoding

pos: 상대적 위치
i: 벡터의 element 인데스
Position별로 구분되는 Encoding 얻게 됨

전체 Sequence의 길이 중 상대적 위치에 따라 고유의 벡터를 생성하여 Embedding된 벡터를 더해줌

2. Scaled Dot-Product Attention

Query, Key-Value의 구조로, Q와 V는 Dot-Product와 Scale로 연산
Scale연산은 값을 줄여줘 saturation을 방지 -> softmax결과 차이를 줄여 줌
Mask를 이용해 illegal connection의 attention을 금지
Softmax로 유사도를 0~1 사이의 값으로 Normalize 수행
유사도와 V를 결합해 Attention value 계산

Illegal connection attention

Self attention은 Query가 있을때 이전의 time step의 key와 value를 사용할 수 있습니다. 따라서 Self attention에서 자기 자신을 포함한 미래의 값은 attention을 구하지 않기 위해 Masking으로 표시합니다.

Decoder에서 현재 이후의 출력은 출력 전이므로 연결이 되면 안됨
mask 방법을 사용해서 방지
마이너스 무한대(∞)로 설정하고 softmax에 넣어 결과가 0되게 함

3. Multi-Head Attention

Scaled Dot-Product Attention이 h개 모아서 병렬 연산을 수행합니다. Linear 연산을 이용해서 Q, K, V 차원을 감소 시키고, 동일한 수준의 복잡도를 병렬 처리해서 빠르게 연산합니다(h개로 나눠서 처리하고 다시 함침).

h개를 모아서 출력을 내기 때문에 차원이 클 수 있습니다. 그래서 마지막에 Linear 연산을 수행해서 차원을 조정합니다. 이는 다음 연결되는 연산에 따라 변경됩니다.

Linear연산(Matrix Multiply)를 이용해 Q, K, V의 차원을 감소
Q와 K의 차원이 다를 경우 동일하게 맞춤
h개의 Attention Layer를 병렬로 연산
출력 전 Linear 연산은 Attention Value의 차원의 필요에 따라 변경

Linear 연산에 따른 차원 축소

차원을 줄여 특정 차원에 집중하고, 다른 것은 다른 차원을 집중
Scaled Dot-Product 하나하나 연산의 연산량은 줄어듬

4. Multi-Head Attention And Masked Multi-Head Attention

Encoder에서는 Self-Attention 방법으로 학습하며, K, V를 Decoder로 전달합니다.

Self attention은 Query가 있을때 이전의 것들만 key와 value로 사용할 수 있기 때문에 첫번째는 아무것도 없고, 두번째는 첫번째만 되고 마지막은 마지막을 제외하고 모두 가능합니다. 가능범위가 달라짐

illegal connection attention 방법으로 학습을 진행하며, 다른 학습 방법은 Multi-Head Attention과 동일합니다.

Self-Attention을 통해서 강조되는 feature를 추출할 수 있음
Encoding의 Self-Attention은 Q, K, V가 들어 감
Decoding의 Self-Attention은 현재 Query보다 Key, Value가 앞서 나올수 없기 때문에 Masked를 사용
Seq2seq의 Attention과 동일한 구조 부분은 K,V는 Encoder에 있고 Q는 Decoder에서 참조
Query는 Decoder의 hidden state의 값
Key, Value는 Encoder에서 참조

5. Position-wise FFN(Feed-Forward Network)

Feed-Forward 네트워크는 각 포지션에(단어 별) 개별적으로 그리고 동일하게 적용됩니다. 활성화 함수로 ReLU를 사용합니다. input, output의 차원은 512, inner-layer는 d_ff는 2048 차원입니다.

한 단어가 input, output을로 들어감, 한문장은 여러개 단어이므로 여러개 간어가 병렬로 들어감

6. Add&Norm

Feed forward 혹은 Multi-Head Attention 후 이전 데이터를 그대로 더해줍니다(Layer Normalization).

7. Output Softmax

Linear 연산을 이용해서 출력 단어 수에 맞추고, Softmax를 이용해 어떤 단어인지 Classification합니다.

Reference

Fast Campus
https://wikidocs.net/31379
https://arxiv.org/pdf/1706.03762.pdf
https://jalammar.github.io/illustrated-transformer/

Sungwoony

이 블로그 검색

[Deep Learning-딥러닝]Transformer - Attention is all you need

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

[Deep Learning-딥러닝] 신경망 구조

JVMNotFoundException: No JVM shared library file (jvm.dll) found. Try setting up the JAVA_HOME environment variable properly.

SentencePiece 설치 및 사용법