기본 콘텐츠로 건너뛰기

[Deep Learning-딥러닝]Transformer - Attention is all you need


Transformer - Attention is all you need
2017 년에 발명 된 Transformer는 전체 텍스트 입력을 동시에 처리하여 단어 (또는 sub-words) 간의 컨텍스트 관계(contextual relations)를 학습하는 어텐션 메커니즘을 사용한 모델입니다.  트랜스포머는 인코더, 디코더 두 부분으로 구성된다. 인코더는 인풋 텍스트와 벡터의 레터럴 표현읽는다(lateral representation of it (e.g. a vector for each word)).
디코더는 인코더 입력으로으로 부터 변화된 텍스트를 출력한다.
Recurrent model은 순차적인 특성이 유지되는 장점이 있었음에도, long-term dependency problem이라는 단점을 가지고 있다. 이와 달리 transformer는 recurrence를 사용하지 않고,  attention mechanism만을 이용해 input과 output의 dependency를 알아낸다. Transformer는 attention만 사용해서 연산 량은 매우 줄었음에도 성능이 매우 높게 나오는 모델이다.


Attention is All you need 논문에서, transformer는 6개의 encoder와 6개의 decoder로 구성되어 있다고 설명한다. 
Encoder는 multi-head self-attention과 fully connected feed-forward network 두 개로 구성되어 있고, 각 layer에 residual connection과 layer normalization을 적용한다. 
Decoder는 세 개의 sub-layers로 구성되어 있다. Illegal masking 방식을 적용한 multi-head self-attention과 encoder의 output을 K, V 로 전달받아 multi-head self-attention을 수행하는 layer와 fully connected feed-forward network로 구성되어 있다. Decoder의 각 layer에도 residual connection과 layer normalization을 적용한다.

위 그림에서 빨간색이 인코더, 파란색이 디코더를 가르키고, 자세한 설명은 다음과 같습니다.
  • 주황색 : 인코더에서 Self-Attention이 일어나는 부분
  • 하늘색 : 디코더에서 Self-Attention이 일어나는 부분
  • 노란색 : 인코더와 디코더의 Attention이 일어나는 부분
  • Shifted right: 이전 output embedding을 참고
네트워크 특징
  • Seq2seq와 유사한 구조로, Encoder - Decoder로 구성
  • Scaled Dot-Product Attention과, 이를 병렬로 나열한 Multi-Head Attention 알고리즘
  • 병렬 연산이므로 위치를 알수 없으므로 입력 단어의 위치를 표현하기 위해 Positional Encoding 사용
Self-Attention
어텐션 함수는 주어진 '쿼리(Query)'에 대해서 모든 '키(Key)'와의 유사도를 각각 구합니다. 그리고 구해낸 이 유사도를 가중치로 하여 키와 맵핑되어있는 각각의 '값(Value)'에 반영해줍니다. 그리고 유사도가 반영된 '값(Value)'을 모두 가중합하여 리턴합니다.
여기까지는 앞서 배운 어텐션의 개념입니다. 그런데 어텐션 중에서는 셀프 어텐션(self-attention)이라는 것이 있습니다. 단지 어텐션을 자기 자신에게 수행한다는 의미입니다.
내용 추가필요
Q, K, V가 모두 같은것, RNN구조를 대체, 병렬처리 가능
Q : 입력 문장의 모든 단어 벡터들
K : 입력 문장의 모든 단어 벡터들
V : 입력 문장의 모든 단어 벡터들

네트워크 수행 절차
1. Positional-wise Encoding
  • pos: 상대적 위치
  • i: 벡터의 element 인데스
  • Position별로 구분되는 Encoding 얻게 됨
  • 전체 Sequence의 길이 중 상대적 위치에 따라 고유의 벡터를 생성하여 Embedding된 벡터를 더해줌
2. Scaled Dot-Product Attention
  • Query, Key-Value의 구조로, Q와 V는 Dot-Product와 Scale로 연산
  • Scale연산은 값을 줄여줘 saturation을 방지 -> softmax결과 차이를 줄여 줌
  • Mask를 이용해 illegal connection의 attention을 금지
  • Softmax로 유사도를 0~1 사이의 값으로 Normalize 수행
  • 유사도와 V를 결합해 Attention value 계산
Illegal connection attention
Self attention은 Query가 있을때 이전의 time step의 key와 value를 사용할 수 있습니다. 따라서 Self attention에서 자기 자신을 포함한 미래의 값은 attention을 구하지 않기 위해 Masking으로 표시합니다.
  • Decoder에서 현재 이후의 출력은 출력 전이므로 연결이 되면 안됨
  • mask 방법을 사용해서 방지
  • 마이너스 무한대(∞)로 설정하고 softmax에 넣어 결과가 0되게 함
3. Multi-Head Attention
Scaled Dot-Product Attention이 h개 모아서 병렬 연산을 수행합니다. Linear 연산을 이용해서 Q, K, V 차원을 감소 시키고, 동일한 수준의 복잡도를 병렬 처리해서 빠르게 연산합니다(h개로 나눠서 처리하고 다시 함침). 
h개를 모아서 출력을 내기 때문에 차원이 클 수 있습니다. 그래서 마지막에 Linear 연산을 수행해서 차원을 조정합니다. 이는 다음 연결되는 연산에 따라 변경됩니다.
  • Linear연산(Matrix Multiply)를 이용해 Q, K, V의 차원을 감소
  • Q와 K의 차원이 다를 경우 동일하게 맞춤
  • h개의 Attention Layer를 병렬로 연산
  • 출력 전 Linear 연산은 Attention Value의 차원의 필요에 따라 변경

Linear 연산에 따른 차원 축소 
  • 차원을 줄여 특정 차원에 집중하고, 다른 것은 다른 차원을 집중
  • Scaled Dot-Product 하나하나 연산의 연산량은 줄어듬
4. Multi-Head Attention And Masked Multi-Head Attention
Encoder에서는 Self-Attention 방법으로 학습하며, K, V를 Decoder로 전달합니다. 

Self attention은 Query가 있을때 이전의 것들만 key와 value로 사용할 수 있기 때문에 첫번째는 아무것도 없고, 두번째는 첫번째만 되고 마지막은 마지막을 제외하고 모두 가능합니다. 가능범위가 달라짐

illegal connection attention 방법으로 학습을 진행하며, 다른 학습 방법은 Multi-Head Attention과 동일합니다.
  • Self-Attention을 통해서 강조되는 feature를 추출할 수 있음
  • Encoding의 Self-Attention은 Q, K, V가 들어 감
  • Decoding의 Self-Attention은 현재 Query보다 Key, Value가 앞서 나올수 없기 때문에 Masked를 사용
  • Seq2seq의 Attention과 동일한 구조 부분은 K,V는 Encoder에 있고 Q는 Decoder에서 참조
  • Query는 Decoder의 hidden state의 값
  • Key, Value는 Encoder에서 참조
5. Position-wise FFN(Feed-Forward Network)
Feed-Forward 네트워크는 각 포지션에(단어 별) 개별적으로 그리고 동일하게 적용됩니다. 활성화 함수로 ReLU를 사용합니다. input, output의 차원은 512,  inner-layer는 dff는 2048 차원입니다.
한 단어가 input, output을로 들어감, 한문장은 여러개 단어이므로 여러개 간어가 병렬로 들어감
6. Add&Norm
Feed forward 혹은 Multi-Head Attention 후 이전 데이터를 그대로 더해줍니다(Layer Normalization). 
7. Output Softmax
Linear 연산을 이용해서 출력 단어 수에 맞추고, Softmax를 이용해 어떤 단어인지 Classification합니다.

Reference

댓글

이 블로그의 인기 게시물

[Deep Learning-딥러닝] 신경망 구조

뉴런 표현 및 연산 방법 생물학의 신경 세포를 단순화하여 모델링 한것이 뉴런입니다.  뉴런은 신경망의 기본 단위 입니다. 뉴런은 여러 신호를 받아, 하나의 신호를 만들어 전달하는 역할을 합니다. 출력을 내기 전에 활성 함수(activation function)을 통해서 비선형 특성을 가할 수 있습니다. 뉴런 연산 방법은 다음과 같습니다. 두 벡터  가중치 weight와 입력 x의  내적 을 구한 후 모두 합한다. 편향을 더합니다.  편향이 없으면, 추세선은 원점을 꼭 지나야 합니다. 활성 함수를 적용 해 비선형 함수로 만듭니다. 두 벡터의 내적은 다음과 같이 표현할 수 있습니다. 두 벡터의 내적 FC(Fully Connected) Layer Matrix 곱셈 연산 표현 방법 뉴런이 모인 한 단위를 계층(Layer)라고 하며, 이전 계층과 다음 계층의 모든 뉴런이 서로 연결된 계층을 Fully-Connected Layer(Dense Layer)라고 합니다. N개의 입력, M개의 출력이 있는 네트워크 예제입니다. 매트릭스  W 의  w 0 는 (N*1)의 벡터이며, 이런  w 0 를 M개 나열되어 있습니다. 입력  x 는 N개라 행렬로 표현하면 (N*1)로 표현됩니다. 가중치를 transpose하여 (M*N)*(N*1)을 연산하여 출력은 (M*1) 형태가 됩니다. 얕은 신경망 - Shallow Neural Network 구조 얕은 신경망 - Shallow Neural Network 입력, 은닉, 출력 3개의 계층으로 되어 있으며, 은닉 계측과 출력 계층이 Fully Connected 계층인 모델을 얕은 신경망(Shallow Neural Network)라고 합니다. 입력 계층(Input Layer) 아무런 연산 없이 은닉계층으로 값을 전달함. 계층의 크기=Node의 개수=입력 Scalar의 수=입력 Vecto...

워드임베딩(Word Embedding)

단어를 임베딩 층의 입력으로 사용하기 위해서 입력 시퀀스의 각 단어들은 모두 정수 인코딩이 되어있어야 합니다. 워드임베딩 변환 과정 어떤 단어 → 단어에 부여된 고유한 정수값 → 임베딩 층 통과 → 밀집 벡터 임베딩 층은 입력 정수에 대해 밀집 벡터(dense vector)로 맵핑 하고 이 밀집 벡터는 인공 신경망의 학습 과정에서 가중치가 학습되는 것과 같은 방식으로 훈련 됩니다. 그리고 이 밀집 벡터를 임베딩 벡터 라고 부릅니다. 정수를 밀집 벡터 또는 임베딩 벡터로 맵핑하는 이유는 무엇일까요? 임베딩 테이블은 단어 집합의 크기만큼 행을 가지므로 모든 단어는 고유한 임베딩 벡터를 가집니다. 즉, 단어의 정수 인덱스는 임베딩 테이블에 대해서 Lookup을 수행하므로 고유한 임베딩 벡터를 결과 를 냅니다. 위의 그림에서는 임베딩 벡터의 차원이 4로 설정되어져 있습니다. 그리고 단어 great은 정수 인코딩 과정에서 1,918의 정수로 인코딩이 되었고 그에 따라 단어 집합의 크기만큼의 행을 가지는 테이블에서 인덱스 1,918번에 위치한 행을 단어 great의 임베딩 벡터로 사용합니다. 이 임베딩 벡터는 모델의 입력이 되고, 역전파 과정에서 단어 great의 임베딩 벡터값이 학습됩니다. 파이토치에서는 임베딩 벡터를 사용하는 방법이 크게 두 가지가 있습니다.  임베딩 층(embedding layer)을 만들어 훈련 데이터로부터 처음부터 임베딩 벡터를 학습하는 방법 사전에 훈련된 임베딩 벡터(pre-trained word embedding)들을 가져와 사용하는 방법 관련 소스는 다음 GIT에서 참고할 수 있습니다. Reference Source https://github.com/ynebula/NLP/blob/master/Word_Embedding/WordEmbedding.ipynb 감사합니다. Reference https://wikidocs.net/64779 https://wikidocs.net/64904

[워드임베딩-Word Embedding]원-핫 인코딩(One-hot encoding)

1. 단어 집합(vocabulary) 및 정수 맵핑 텍스트의 모든 단어의 중복을 배제한 집합을 단어 집합(vocabulary) 이라고 합니다. 그리고 이 단어 집합에 고유한 숫자를 부여하는 정수 인코딩 을 진행 합니다. 이를 다른 말로 맵핑(mapping) 이라고 합니다. 보통 인덱스는 빈도수가 높은 단어들만 사용하기 위해서, 단어의 빈도수를 기준으로 내림차순 정렬한 뒤에 부여합니다. 2. 원-핫 인코딩(One-hot encoding) 컴퓨터는 문자보다는 숫자를 더 잘 처리 할 수 있습니다. 이를 위해 문자를 숫자로 바꿔야 합니다. 원-핫 인코딩(One-hot encoding)은 문자를 숫자로 바꿔주는 방법 중 가장 기본적인 방법 입니다. 원-핫 인코딩은 "범주형 데이터" 또는 "다중 클래스 분류" 문제를 처리할 때 레이블을 표현합니다. 원-핫 인코딩의 크기는 선택(Category or Class)개수이고, 정답은 1로 나머지는 0으로 표시하는 방법입니다.  원-핫 인코딩은 단어 집합의 크기를 벡터의 차원 으로 하고, 표현하고 싶은 단어의 인덱스 즉, 정답에 1의 값을 부여 하고, 다른 인덱스에는 0을 부여 하는 단어의 벡터 표현 방식 입니다. 이렇게 표현된 벡터를 원-핫 벡터(One-hot vector) 라고 합니다. 원-핫 인코딩을 위해서 먼저 해야할 일은 단어 집합을 만드는 일입니다. 원-핫 인코딩을 하기 위해서는 우선 각 선택지에 순차적으로 정수 인덱스를 부여합니다. 원-핫 인코딩 수행 과정 단어 집합 생성 각 단어에 고유한 인덱스를 부여 표현하고 싶은 단어의 인덱스의 위치에 1을 부여하고, 다른 단어의 인덱스의 위치에는 0을 부여 카테고리가 6개이므로 6차원 벡터로 표시 3. 원-핫 인코딩의 희소 표현(Sparse Vector) 희소 표현을 이용해 벡터 전체를 표기하지 않고, 숫자 하나(1의 값의 Index를 가지고 표현)로 표현할 수 있습니다. 4. 비용함수 MSE(M...