분산 표현(Distributed Representation) 희소 표현(sparse representation) - 원-핫 벡터 표현 방법은 각 단어간 유사성을 표현할 수 없다는 단점이 있습니다. 이를 위한 대안으로 단어의 '의미'를 다차원 공간에 벡터화하는 분산 표현(distributed representation) 이 이용됩니다. 그리고 이렇게 분산 표현을 이용하여 단어의 유사도를 벡터화하는 작업은 워드 임베딩(embedding) 작업에 속하기 때문에 임베딩 벡터(embedding vector) 라고 하며, 저차원을 가지므로 바로 앞의 챕터에서 배운 밀집 벡터(dense vector) 에도 속합니다. 분산 표현(distributed representation) 방법은 기본적으로 '비슷한 위치에서 등장하는 단어들은 비슷한 의미를 가진다'라는 분포 가설(distributional hypothesis) 이라는 가정 하에 만들어진 표현 방법입니다. 강아지란 단어는 귀엽다, 예쁘다, 애교 등의 단어가 주로 함께 등장하는데 분포 가설에 따라서 저런 내용을 가진 텍스트를 벡터화한다면 저 단어들은 의미적으로 가까운 단어가 됩니다. Example) Sparse 표현 강아지 = [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략 ... 0] Dense 표현 강아지 = [0.2 0.3 0.5 0.7 0.2 ... 중략 ... 0.2] 즉, 희소 표현은 고차원에 각 차원이 분리된 표현 방법이었다면, 분산 표현은 저차원에 단어의 의미를 여러 차원에다가 분산하여 표현합니다. 이런 표현 방법을 사용하면 단어 간 유사도를 계산할 수 있습니다. Word2Vec에는 CBOW(Continuous Bag of Words)와 Skip-Gram 두 가지 방식이 있습니다. CBOW(Continuous Bag of Words) CBOW는 주변에 있는 단어들을 가지고, 중간에 있는 단어들을 예측하는 방법입니다. 예문 : "The fat ca...