📈 KL(Kullback-Leibler) Divergence
이전 포스팅을 통해 불확실성
을 측정하기 위한 엔트로피
에 대한 개념을 알아봤습니다.
KL-Divergence
는 교차 엔트로피
를 이용하여 확률분포
의 차이를 계산하는 함수로
근사하는 다른 분포
를 샘플링 시 발생할 수 있는 정보 엔트로피
의 차이를 계산합니다.
이전 포스팅을 통해 불확실성
을 측정하기 위한 엔트로피
에 대한 개념을 알아봤습니다.
KL-Divergence
는 교차 엔트로피
를 이용하여 확률분포
의 차이를 계산하는 함수로
근사하는 다른 분포
를 샘플링 시 발생할 수 있는 정보 엔트로피
의 차이를 계산합니다.
경사하강법
에서 소개한 내용을 토대로 확인 시 𝜌(rho)
라 불리는 학습률
값의 경우
가중치
갱신 과정에서 모두 동일한 값을 이용하여 수행된다는 것을 확인할 수 있습니다.
이를 동일 값을 사용하는 것이 아닌 각 매개변수
별 다른 값을 이용하는 것이 고안됐고,
이러한 방법을 적응적 학습률(Adaptive learning rate)
이라 표현하고 있습니다.
Adam(Adaptive Momemtum Estimation)
은 소개한 Momentum
과 RMSProp
의 결합 버전으로
현재 기준으로 딥러닝의 Optimizer
중 가장 많이 사용되고 있는 알고리즘이라 볼 수 있습니다.
모멘텀(Momentum)
은 물리학에서 사용되는 용어와 비슷한 개념이라고 보면 될 것 같습니다.
물리학에서는 운동량, 물체가 특정 이동하려고 하는 것을 의미하고 이는 관성
이라 보면 됩니다.
모멘텀
은 기존 포스팅에서 설명드린 확률적 경사하강법(SGD)
의 단점을 보완하기 위한 요소입니다.
교차 엔트로피
는 인공지능
의 분류(Classification)
문제에서 많이 사용되는 함수
입니다.
이 함수
가 무엇이고 어떠한 역할을 하기에 많이 사용되고 있는지 알아보도록 하겠습니다.
교차 엔트로피
를 이해하기 위해서는 먼저 엔트로피
에 대한 개념을 이해해야 합니다.
엔트로피
는 간단하게 말하면 확률
의 분포에 따른 불확실성
을 측정하는 함수입니다.