AdaGrad (Adaptive gradient)
AdaGrad는 변수별로 학습율이 달라지게 조절하는 알고리즘입니다.기능: 기울기가 커서 학습이 많이 된 변수는 학습율을 감소시켜, 다른 변수들이 잘 학습되도록 합니다.
단점: gt가 계속해서 커져서 학습이 오래 진행되면 더 이상 하습이 이루어지지 않는 단점이 있습니다. 한번 커진값은 줄어들지 않는 구조라, 계속 누적해서 커지는 구조
RMSProp
RMSProp은 AdaGrad의 문제점을 개선한 방법으로 합 대신 지수평균을 사용합니다. 변수 간의 상대적인 학습율 차이는 유지하면서 gt 가 무한정 커지지 않아 학습을 오래 할 수 있습니다.- 이전 값을 어느정도 감소시키고 새로운 gradient를 업데이트 함.
- Gradient를 gt 가 천천히 따라가는 형상을 나타남.
- Gradient가 줄어들면 gt 도 줄어들고, 학습이 잘 안되는 상황이면 gt+ε도 작아지므로 다시 학습 잘되게 함.
Adam (Adaptive moment estimation)
Adam은 RMSProp과 Momentum의 장점을 결합한 알고리즘 입니다.
- mt 는 이전 mt-1을 B1만큼 유지 하고(관성 기능) 새 gradient를 (1-B1)만큼 업데이트 함.
- gt 는 이전 gt-1을 B2만큼 유지 하고(관성 기능) 새 gradient의 제곱을 (1-B2)만큼 업데이트 함.
- B1 와 B2 값이 1에 가까운 값이므로, 첫 학습의 gradient가 거의 반영이 안되어, 학습이 잘 이루어 지지 않습니다. 이를 위해 mt , gt 의 초기값은 보정합니다.
감사합니다.
댓글
댓글 쓰기