728x90
반응형
정규화(Regularization) 항은 모델이 과적합(overfitting)되는 것을 방지하기 위해 사용됩니다. 모델이 학습 데이터를 너무 잘 맞추려 하다 보면, 데이터의 노이즈까지 학습하게 되어 일반화 성능이 떨어질 수 있습니다. 정규화 항을 추가함으로써 모델의 복잡도를 제어하고, 과적합을 방지할 수 있습니다.
위 이미지에서 보이는 식은 정규화 항을 포함한 손실 함수(loss function)를 나타냅니다. 이 식의 각 부분을 차례로 풀이하겠습니다.
- 첫 번째 식: ( E_D(\mathbf{w}) + \lambda E_W(\mathbf{w}) )
- ( E_D(\mathbf{w}) ): 데이터 오차(data error) 또는 데이터 손실을 나타냅니다.
- ( \lambda ): 정규화 파라미터로, 데이터 오차와 정규화 항의 균형을 조절합니다.
- ( E_W(\mathbf{w}) ): 정규화 항입니다.
- 두 번째 식: ( E_W(\mathbf{w}) = \frac{1}{2} \mathbf{w}^T \mathbf{w} )
- 여기서 ( \mathbf{w} )는 모델의 파라미터 벡터입니다.
- 이 식은 ( \ell_2 ) 정규화로, 파라미터 벡터의 유클리드 노름(Euclidean norm)의 제곱을 의미합니다.
- 세 번째 식: (\frac{1}{2} \sum_{n=1}^{N} { t_n - \mathbf{w}^T \phi(\mathbf{x}_n) }^2 + \frac{\lambda}{2} \mathbf{w}^T \mathbf{w} )
- (\sum_{n=1}^{N} ): 전체 데이터 포인트에 대한 합입니다.
- ( t_n ): ( n )번째 데이터 포인트의 실제 값(target value)입니다.
- ( \mathbf{w}^T \phi(\mathbf{x}_n) ): 모델이 예측한 값입니다. 여기서 ( \phi(\mathbf{x}_n) )는 입력 데이터 ( \mathbf{x}_n )에 대한 특징 벡터입니다.
- ( \frac{1}{2} { t_n - \mathbf{w}^T \phi(\mathbf{x}_n) }^2 ): 데이터 오차(예측 값과 실제 값의 차이의 제곱)입니다.
- ( \frac{\lambda}{2} \mathbf{w}^T \mathbf{w} ): 정규화 항입니다.
- 네 번째 식: 더 일반적인 형태로 표현된 손실 함수입니다.
- (\frac{1}{2} \sum_{n=1}^{N} { t_n - \mathbf{w}^T \phi(\mathbf{x}n) }^2 + \frac{\lambda}{2} \sum{j=1}^{M} | w_j |^q )
- 이 식에서 정규화 항은 ( \ell_q ) 정규화로, 파라미터 벡터의 각 요소의 ( q ) 제곱의 합으로 표현됩니다.
- ( | w_j |^q ): ( w_j )의 절댓값을 ( q )제곱한 것입니다. ( q )는 일반적으로 1 또는 2가 되며, ( q=1 )인 경우 ( \ell_1 ) 정규화, ( q=2 )인 경우 ( \ell_2 ) 정규화를 의미합니다.
정리하면, 정규화 항은 모델의 파라미터 값이 너무 커지지 않도록 제어하여 과적합을 방지하는 역할을 합니다. 이때 정규화 항의 형태에 따라 ( \ell_1 ) 정규화, ( \ell_2 ) 정규화 등 다양한 정규화 방법이 있습니다.
[Answered\ by\ ChatGPT4]
728x90
반응형
'배움 - 차근차근 기록하자 > [개발] 딥러닝 🍩' 카테고리의 다른 글
GPU VRAM (전용 메모리) 확인 (0) | 2024.08.29 |
---|---|
L1, L2 정규화와 스파시티(Sparcity) (0) | 2024.06.14 |
순차학습 (1) | 2024.06.14 |
편향 (0) | 2024.06.14 |