📈 KL(Kullback-Leibler) Divergence
이전 포스팅을 통해 불확실성을 측정하기 위한 엔트로피에 대한 개념을 알아봤습니다.
KL-Divergence는 교차 엔트로피를 이용하여 확률분포의 차이를 계산하는 함수로
근사하는 다른 분포를 샘플링 시 발생할 수 있는 정보 엔트로피의 차이를 계산합니다.
이전 포스팅을 통해 불확실성을 측정하기 위한 엔트로피에 대한 개념을 알아봤습니다.
KL-Divergence는 교차 엔트로피를 이용하여 확률분포의 차이를 계산하는 함수로
근사하는 다른 분포를 샘플링 시 발생할 수 있는 정보 엔트로피의 차이를 계산합니다.
경사하강법에서 소개한 내용을 토대로 확인 시 𝜌(rho)라 불리는 학습률 값의 경우
가중치 갱신 과정에서 모두 동일한 값을 이용하여 수행된다는 것을 확인할 수 있습니다.
이를 동일 값을 사용하는 것이 아닌 각 매개변수 별 다른 값을 이용하는 것이 고안됐고,
이러한 방법을 적응적 학습률(Adaptive learning rate)이라 표현하고 있습니다.
Adam(Adaptive Momemtum Estimation)은 소개한 Momentum과 RMSProp의 결합 버전으로
현재 기준으로 딥러닝의 Optimizer 중 가장 많이 사용되고 있는 알고리즘이라 볼 수 있습니다.
모멘텀(Momentum)은 물리학에서 사용되는 용어와 비슷한 개념이라고 보면 될 것 같습니다.
물리학에서는 운동량, 물체가 특정 이동하려고 하는 것을 의미하고 이는 관성이라 보면 됩니다.
모멘텀은 기존 포스팅에서 설명드린 확률적 경사하강법(SGD)의 단점을 보완하기 위한 요소입니다.
교차 엔트로피는 인공지능의 분류(Classification) 문제에서 많이 사용되는 함수입니다.
이 함수가 무엇이고 어떠한 역할을 하기에 많이 사용되고 있는지 알아보도록 하겠습니다.
교차 엔트로피를 이해하기 위해서는 먼저 엔트로피에 대한 개념을 이해해야 합니다.
엔트로피는 간단하게 말하면 확률의 분포에 따른 불확실성을 측정하는 함수입니다.