단어를 임베딩 층의 입력으로 사용하기 위해서 입력 시퀀스의 각 단어들은 모두 정수 인코딩이 되어있어야 합니다.
워드임베딩 변환 과정
- 어떤 단어 → 단어에 부여된 고유한 정수값 → 임베딩 층 통과 → 밀집 벡터
임베딩 층은 입력 정수에 대해 밀집 벡터(dense vector)로 맵핑하고 이 밀집 벡터는 인공 신경망의 학습 과정에서 가중치가 학습되는 것과 같은 방식으로 훈련됩니다. 그리고 이 밀집 벡터를 임베딩 벡터라고 부릅니다.
정수를 밀집 벡터 또는 임베딩 벡터로 맵핑하는 이유는 무엇일까요? 임베딩 테이블은 단어 집합의 크기만큼 행을 가지므로 모든 단어는 고유한 임베딩 벡터를 가집니다. 즉, 단어의 정수 인덱스는 임베딩 테이블에 대해서 Lookup을 수행하므로 고유한 임베딩 벡터를 결과를 냅니다.
위의 그림에서는 임베딩 벡터의 차원이 4로 설정되어져 있습니다. 그리고 단어 great은 정수 인코딩 과정에서 1,918의 정수로 인코딩이 되었고 그에 따라 단어 집합의 크기만큼의 행을 가지는 테이블에서 인덱스 1,918번에 위치한 행을 단어 great의 임베딩 벡터로 사용합니다. 이 임베딩 벡터는 모델의 입력이 되고, 역전파 과정에서 단어 great의 임베딩 벡터값이 학습됩니다.
파이토치에서는 임베딩 벡터를 사용하는 방법이 크게 두 가지가 있습니다.
- 임베딩 층(embedding layer)을 만들어 훈련 데이터로부터 처음부터 임베딩 벡터를 학습하는 방법
- 사전에 훈련된 임베딩 벡터(pre-trained word embedding)들을 가져와 사용하는 방법
관련 소스는 다음 GIT에서 참고할 수 있습니다.
Reference Source
https://github.com/ynebula/NLP/blob/master/Word_Embedding/WordEmbedding.ipynb
감사합니다.
댓글
댓글 쓰기