기본 콘텐츠로 건너뛰기

라벨이 워드임베딩인 게시물 표시

[워드임베딩-Word Embedding]워드투벡터(Word2Vec)

분산 표현(Distributed Representation) 희소 표현(sparse representation) - 원-핫 벡터 표현 방법은 각 단어간 유사성을 표현할 수 없다는 단점이 있습니다. 이를 위한 대안으로 단어의 '의미'를 다차원 공간에 벡터화하는  분산 표현(distributed representation) 이 이용됩니다. 그리고 이렇게 분산 표현을 이용하여 단어의 유사도를 벡터화하는 작업은 워드 임베딩(embedding) 작업에 속하기 때문에 임베딩 벡터(embedding vector) 라고 하며, 저차원을 가지므로 바로 앞의 챕터에서 배운 밀집 벡터(dense vector) 에도 속합니다.  분산 표현(distributed representation) 방법은 기본적으로 '비슷한 위치에서 등장하는 단어들은 비슷한 의미를 가진다'라는 분포 가설(distributional hypothesis) 이라는 가정 하에 만들어진 표현 방법입니다. 강아지란 단어는 귀엽다, 예쁘다, 애교 등의 단어가 주로 함께 등장하는데 분포 가설에 따라서 저런 내용을 가진 텍스트를 벡터화한다면 저 단어들은 의미적으로 가까운 단어가 됩니다.  Example)  Sparse 표현 강아지 = [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략 ... 0] Dense 표현  강아지 = [0.2 0.3 0.5 0.7 0.2 ... 중략 ... 0.2] 즉, 희소 표현은 고차원에 각 차원이 분리된 표현 방법이었다면, 분산 표현은 저차원에 단어의 의미를 여러 차원에다가 분산하여 표현합니다. 이런 표현 방법을 사용하면 단어 간 유사도를 계산할 수 있습니다. Word2Vec에는 CBOW(Continuous Bag of Words)와 Skip-Gram 두 가지 방식이 있습니다. CBOW(Continuous Bag of Words) CBOW는 주변에 있는 단어들을 가지고, 중간에 있는 단어들을 예측하는 방법입니다. 예문 : "The fat ca...

[워드임베딩-Word Embedding]원-핫 인코딩(One-hot encoding)

1. 단어 집합(vocabulary) 및 정수 맵핑 텍스트의 모든 단어의 중복을 배제한 집합을 단어 집합(vocabulary) 이라고 합니다. 그리고 이 단어 집합에 고유한 숫자를 부여하는 정수 인코딩 을 진행 합니다. 이를 다른 말로 맵핑(mapping) 이라고 합니다. 보통 인덱스는 빈도수가 높은 단어들만 사용하기 위해서, 단어의 빈도수를 기준으로 내림차순 정렬한 뒤에 부여합니다. 2. 원-핫 인코딩(One-hot encoding) 컴퓨터는 문자보다는 숫자를 더 잘 처리 할 수 있습니다. 이를 위해 문자를 숫자로 바꿔야 합니다. 원-핫 인코딩(One-hot encoding)은 문자를 숫자로 바꿔주는 방법 중 가장 기본적인 방법 입니다. 원-핫 인코딩은 "범주형 데이터" 또는 "다중 클래스 분류" 문제를 처리할 때 레이블을 표현합니다. 원-핫 인코딩의 크기는 선택(Category or Class)개수이고, 정답은 1로 나머지는 0으로 표시하는 방법입니다.  원-핫 인코딩은 단어 집합의 크기를 벡터의 차원 으로 하고, 표현하고 싶은 단어의 인덱스 즉, 정답에 1의 값을 부여 하고, 다른 인덱스에는 0을 부여 하는 단어의 벡터 표현 방식 입니다. 이렇게 표현된 벡터를 원-핫 벡터(One-hot vector) 라고 합니다. 원-핫 인코딩을 위해서 먼저 해야할 일은 단어 집합을 만드는 일입니다. 원-핫 인코딩을 하기 위해서는 우선 각 선택지에 순차적으로 정수 인덱스를 부여합니다. 원-핫 인코딩 수행 과정 단어 집합 생성 각 단어에 고유한 인덱스를 부여 표현하고 싶은 단어의 인덱스의 위치에 1을 부여하고, 다른 단어의 인덱스의 위치에는 0을 부여 카테고리가 6개이므로 6차원 벡터로 표시 3. 원-핫 인코딩의 희소 표현(Sparse Vector) 희소 표현을 이용해 벡터 전체를 표기하지 않고, 숫자 하나(1의 값의 Index를 가지고 표현)로 표현할 수 있습니다. 4. 비용함수 MSE(M...