기본 콘텐츠로 건너뛰기

[Deep Learning-딥러닝]Transformer - Attention is all you need


Transformer - Attention is all you need
2017 년에 발명 된 Transformer는 전체 텍스트 입력을 동시에 처리하여 단어 (또는 sub-words) 간의 컨텍스트 관계(contextual relations)를 학습하는 어텐션 메커니즘을 사용한 모델입니다.  트랜스포머는 인코더, 디코더 두 부분으로 구성된다. 인코더는 인풋 텍스트와 벡터의 레터럴 표현읽는다(lateral representation of it (e.g. a vector for each word)).
디코더는 인코더 입력으로으로 부터 변화된 텍스트를 출력한다.
Recurrent model은 순차적인 특성이 유지되는 장점이 있었음에도, long-term dependency problem이라는 단점을 가지고 있다. 이와 달리 transformer는 recurrence를 사용하지 않고,  attention mechanism만을 이용해 input과 output의 dependency를 알아낸다. Transformer는 attention만 사용해서 연산 량은 매우 줄었음에도 성능이 매우 높게 나오는 모델이다.


Attention is All you need 논문에서, transformer는 6개의 encoder와 6개의 decoder로 구성되어 있다고 설명한다. 
Encoder는 multi-head self-attention과 fully connected feed-forward network 두 개로 구성되어 있고, 각 layer에 residual connection과 layer normalization을 적용한다. 
Decoder는 세 개의 sub-layers로 구성되어 있다. Illegal masking 방식을 적용한 multi-head self-attention과 encoder의 output을 K, V 로 전달받아 multi-head self-attention을 수행하는 layer와 fully connected feed-forward network로 구성되어 있다. Decoder의 각 layer에도 residual connection과 layer normalization을 적용한다.

위 그림에서 빨간색이 인코더, 파란색이 디코더를 가르키고, 자세한 설명은 다음과 같습니다.
  • 주황색 : 인코더에서 Self-Attention이 일어나는 부분
  • 하늘색 : 디코더에서 Self-Attention이 일어나는 부분
  • 노란색 : 인코더와 디코더의 Attention이 일어나는 부분
  • Shifted right: 이전 output embedding을 참고
네트워크 특징
  • Seq2seq와 유사한 구조로, Encoder - Decoder로 구성
  • Scaled Dot-Product Attention과, 이를 병렬로 나열한 Multi-Head Attention 알고리즘
  • 병렬 연산이므로 위치를 알수 없으므로 입력 단어의 위치를 표현하기 위해 Positional Encoding 사용
Self-Attention
어텐션 함수는 주어진 '쿼리(Query)'에 대해서 모든 '키(Key)'와의 유사도를 각각 구합니다. 그리고 구해낸 이 유사도를 가중치로 하여 키와 맵핑되어있는 각각의 '값(Value)'에 반영해줍니다. 그리고 유사도가 반영된 '값(Value)'을 모두 가중합하여 리턴합니다.
여기까지는 앞서 배운 어텐션의 개념입니다. 그런데 어텐션 중에서는 셀프 어텐션(self-attention)이라는 것이 있습니다. 단지 어텐션을 자기 자신에게 수행한다는 의미입니다.
내용 추가필요
Q, K, V가 모두 같은것, RNN구조를 대체, 병렬처리 가능
Q : 입력 문장의 모든 단어 벡터들
K : 입력 문장의 모든 단어 벡터들
V : 입력 문장의 모든 단어 벡터들

네트워크 수행 절차
1. Positional-wise Encoding
  • pos: 상대적 위치
  • i: 벡터의 element 인데스
  • Position별로 구분되는 Encoding 얻게 됨
  • 전체 Sequence의 길이 중 상대적 위치에 따라 고유의 벡터를 생성하여 Embedding된 벡터를 더해줌
2. Scaled Dot-Product Attention
  • Query, Key-Value의 구조로, Q와 V는 Dot-Product와 Scale로 연산
  • Scale연산은 값을 줄여줘 saturation을 방지 -> softmax결과 차이를 줄여 줌
  • Mask를 이용해 illegal connection의 attention을 금지
  • Softmax로 유사도를 0~1 사이의 값으로 Normalize 수행
  • 유사도와 V를 결합해 Attention value 계산
Illegal connection attention
Self attention은 Query가 있을때 이전의 time step의 key와 value를 사용할 수 있습니다. 따라서 Self attention에서 자기 자신을 포함한 미래의 값은 attention을 구하지 않기 위해 Masking으로 표시합니다.
  • Decoder에서 현재 이후의 출력은 출력 전이므로 연결이 되면 안됨
  • mask 방법을 사용해서 방지
  • 마이너스 무한대(∞)로 설정하고 softmax에 넣어 결과가 0되게 함
3. Multi-Head Attention
Scaled Dot-Product Attention이 h개 모아서 병렬 연산을 수행합니다. Linear 연산을 이용해서 Q, K, V 차원을 감소 시키고, 동일한 수준의 복잡도를 병렬 처리해서 빠르게 연산합니다(h개로 나눠서 처리하고 다시 함침). 
h개를 모아서 출력을 내기 때문에 차원이 클 수 있습니다. 그래서 마지막에 Linear 연산을 수행해서 차원을 조정합니다. 이는 다음 연결되는 연산에 따라 변경됩니다.
  • Linear연산(Matrix Multiply)를 이용해 Q, K, V의 차원을 감소
  • Q와 K의 차원이 다를 경우 동일하게 맞춤
  • h개의 Attention Layer를 병렬로 연산
  • 출력 전 Linear 연산은 Attention Value의 차원의 필요에 따라 변경

Linear 연산에 따른 차원 축소 
  • 차원을 줄여 특정 차원에 집중하고, 다른 것은 다른 차원을 집중
  • Scaled Dot-Product 하나하나 연산의 연산량은 줄어듬
4. Multi-Head Attention And Masked Multi-Head Attention
Encoder에서는 Self-Attention 방법으로 학습하며, K, V를 Decoder로 전달합니다. 

Self attention은 Query가 있을때 이전의 것들만 key와 value로 사용할 수 있기 때문에 첫번째는 아무것도 없고, 두번째는 첫번째만 되고 마지막은 마지막을 제외하고 모두 가능합니다. 가능범위가 달라짐

illegal connection attention 방법으로 학습을 진행하며, 다른 학습 방법은 Multi-Head Attention과 동일합니다.
  • Self-Attention을 통해서 강조되는 feature를 추출할 수 있음
  • Encoding의 Self-Attention은 Q, K, V가 들어 감
  • Decoding의 Self-Attention은 현재 Query보다 Key, Value가 앞서 나올수 없기 때문에 Masked를 사용
  • Seq2seq의 Attention과 동일한 구조 부분은 K,V는 Encoder에 있고 Q는 Decoder에서 참조
  • Query는 Decoder의 hidden state의 값
  • Key, Value는 Encoder에서 참조
5. Position-wise FFN(Feed-Forward Network)
Feed-Forward 네트워크는 각 포지션에(단어 별) 개별적으로 그리고 동일하게 적용됩니다. 활성화 함수로 ReLU를 사용합니다. input, output의 차원은 512,  inner-layer는 dff는 2048 차원입니다.
한 단어가 input, output을로 들어감, 한문장은 여러개 단어이므로 여러개 간어가 병렬로 들어감
6. Add&Norm
Feed forward 혹은 Multi-Head Attention 후 이전 데이터를 그대로 더해줍니다(Layer Normalization). 
7. Output Softmax
Linear 연산을 이용해서 출력 단어 수에 맞추고, Softmax를 이용해 어떤 단어인지 Classification합니다.

Reference

댓글

이 블로그의 인기 게시물

워드임베딩(Word Embedding)

단어를 임베딩 층의 입력으로 사용하기 위해서 입력 시퀀스의 각 단어들은 모두 정수 인코딩이 되어있어야 합니다. 워드임베딩 변환 과정 어떤 단어 → 단어에 부여된 고유한 정수값 → 임베딩 층 통과 → 밀집 벡터 임베딩 층은 입력 정수에 대해 밀집 벡터(dense vector)로 맵핑 하고 이 밀집 벡터는 인공 신경망의 학습 과정에서 가중치가 학습되는 것과 같은 방식으로 훈련 됩니다. 그리고 이 밀집 벡터를 임베딩 벡터 라고 부릅니다. 정수를 밀집 벡터 또는 임베딩 벡터로 맵핑하는 이유는 무엇일까요? 임베딩 테이블은 단어 집합의 크기만큼 행을 가지므로 모든 단어는 고유한 임베딩 벡터를 가집니다. 즉, 단어의 정수 인덱스는 임베딩 테이블에 대해서 Lookup을 수행하므로 고유한 임베딩 벡터를 결과 를 냅니다. 위의 그림에서는 임베딩 벡터의 차원이 4로 설정되어져 있습니다. 그리고 단어 great은 정수 인코딩 과정에서 1,918의 정수로 인코딩이 되었고 그에 따라 단어 집합의 크기만큼의 행을 가지는 테이블에서 인덱스 1,918번에 위치한 행을 단어 great의 임베딩 벡터로 사용합니다. 이 임베딩 벡터는 모델의 입력이 되고, 역전파 과정에서 단어 great의 임베딩 벡터값이 학습됩니다. 파이토치에서는 임베딩 벡터를 사용하는 방법이 크게 두 가지가 있습니다.  임베딩 층(embedding layer)을 만들어 훈련 데이터로부터 처음부터 임베딩 벡터를 학습하는 방법 사전에 훈련된 임베딩 벡터(pre-trained word embedding)들을 가져와 사용하는 방법 관련 소스는 다음 GIT에서 참고할 수 있습니다. Reference Source https://github.com/ynebula/NLP/blob/master/Word_Embedding/WordEmbedding.ipynb 감사합니다. Reference https://wikidocs.net/64779 https://wikidocs.net/64904

[Deep Learning-딥러닝] 신경망 구조

뉴런 표현 및 연산 방법 생물학의 신경 세포를 단순화하여 모델링 한것이 뉴런입니다.  뉴런은 신경망의 기본 단위 입니다. 뉴런은 여러 신호를 받아, 하나의 신호를 만들어 전달하는 역할을 합니다. 출력을 내기 전에 활성 함수(activation function)을 통해서 비선형 특성을 가할 수 있습니다. 뉴런 연산 방법은 다음과 같습니다. 두 벡터  가중치 weight와 입력 x의  내적 을 구한 후 모두 합한다. 편향을 더합니다.  편향이 없으면, 추세선은 원점을 꼭 지나야 합니다. 활성 함수를 적용 해 비선형 함수로 만듭니다. 두 벡터의 내적은 다음과 같이 표현할 수 있습니다. 두 벡터의 내적 FC(Fully Connected) Layer Matrix 곱셈 연산 표현 방법 뉴런이 모인 한 단위를 계층(Layer)라고 하며, 이전 계층과 다음 계층의 모든 뉴런이 서로 연결된 계층을 Fully-Connected Layer(Dense Layer)라고 합니다. N개의 입력, M개의 출력이 있는 네트워크 예제입니다. 매트릭스  W 의  w 0 는 (N*1)의 벡터이며, 이런  w 0 를 M개 나열되어 있습니다. 입력  x 는 N개라 행렬로 표현하면 (N*1)로 표현됩니다. 가중치를 transpose하여 (M*N)*(N*1)을 연산하여 출력은 (M*1) 형태가 됩니다. 얕은 신경망 - Shallow Neural Network 구조 얕은 신경망 - Shallow Neural Network 입력, 은닉, 출력 3개의 계층으로 되어 있으며, 은닉 계측과 출력 계층이 Fully Connected 계층인 모델을 얕은 신경망(Shallow Neural Network)라고 합니다. 입력 계층(Input Layer) 아무런 연산 없이 은닉계층으로 값을 전달함. 계층의 크기=Node의 개수=입력 Scalar의 수=입력 Vector의 길이 x = [ x 0 , x 1 , x 2 , ... ,

[Deep Learning-딥러닝]딥러닝 정의 및 구조 설명

인공지능 기계학습 딥러닝 인공지능: 기계가 사람의 행동을 모방하게 하는 기술을 연구하는 분야 기계학습: 개발자가 일일이 코드로 명시하지 않고, 데이터로 부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구 분야 딥러닝: 기계학습의 한 분야로 인공 신경망에 기반하여, 많은 데이터를 학습해 뛰어난 성능을 도출하는 연구 분야 인공신경망 구조 사람의 신경 세포에서 착안한 방법입니다. 생물학적인 신경 세포를 단순화하여 모델링 하였습니다.  여러 신호를  받아 가중치를 곱하고, 모두 합하여 하나의 신호를 만들어서 전달합니다.  출력 전에 활성 함수(activation function)을 통해 비선형 특성을 가할 수 있습니다. 노드(뉴런) 집합을 계층으라 하며, 이전 계층과 모든 뉴런이 연결된 상태를 FC(Fully-Connected) Layer(Dense Layer)라고 합니다.  딥러닝 특징 기계 학습에서는 특징 추출기 부분은 사람이 수행합니다. 기계는 분류기 부분만 수행합니다. 반면 딥러닝에서는 특징 추출 및 분류 모두 기계가 수행합니다. 즉, 사람의 Intend(의지, 생각)이 개입이 안 됩니다. 딥러닝 응용 분야 딥러닝 학습 및 테스트 방법 학습 단계 학습 데이터셋을 입력으로 넣고 예측값을 출력합니다.  손실함수를 이용해 예측값과 정답과 비교해 오차를 구합니다. 최적화 기법을 이용해서 오차가 최소가 되도록 네트워크를 개선합니다. 테스트 단계 테이트 데이터셋을 넣고 출력값을 평가 지표로 평가 수행하여 네트워크 수준을 측정합니다. 감사합니다. Reference - Fastcampus