Data/Data Science
Normalization, Regularization, Standardization
재융
2020. 11. 14. 02:43
반응형
Normalization(정규화), Standardization(표준화), Regularization모두 다 머신러닝 또는 딥러닝에 학습에 효율적 또는 Overfitting을 피하기 위해서 나온 기법들이다.
Normalization, Standardization은 모델에서 특정 Feature가 값이 큰경우 해당 feature가 큰영향을 끼치는것을 방지하기위해서 적용하는 기법이다.
Normalization
- 값의 범위를 0~1사이의 값으로 바꾸는 것
- 방법은 다양함
- MinMaxScaler - 최대 최소값을 이용한 방법
- Standard Score
- Student's t-statistic
- Studentized residual
- Standardized moment
- Coefficient of variation
en.wikipedia.org/wiki/Normalization_(statistics)
Standardization
- 값의 범위를 평균 0, 분산 1이 되도록 변환
- Standard Scaler 또는 z-score normalization이 있음
- 정규분포를 표준정규분포로 변환하는 것과 같음
- -1 ~ 1 사이에 68%가 있고, -2 ~ 2사이에 95%가 있고, -3~3사이에 99%가 있음
- -3~3이외는 Outlier일 확률이 높음
realblack0.github.io/2020/03/29/normalization-standardization-regularization.html
밑의 그림은 Normalization, Standardization을 적용한뒤의 데이터들의 변화이다
Regularization
- 머신러닝, 딥러닝에서의 Weight를 제약을 걸어서 Overfitting이 안되게끔하는 방법
- 대표적으로 L1, L2 Regularization, Drop-Out이 있음
반응형