[EECS 498-007, Lecture5] Activation Function이 필요한 이유

강의를 보는중 다음과 같은 내용이 나오는데

Activation Function이 없다면 결국엔 Linear Classifier라는 뜻인데. 여기서 "수학적으로 본다면"에서 약간 갸우뚱 거렸다. 그래서 검색을 하는과정에 다음과 같은 이미지를 찾게되었는데

직관적으로도 이해가 되겠지만. 부연설명을 하자면 MLP에서 두드러지게 효과가 나타난다고 한다.

즉, 만약에 Activation function이 없다면

Z(x) = (-5x - 7.7) + (-1.2x - 1.3) + (1.2x + 1) + (1.2x - 0.2) + (2x - 1.1) + (5x-5) = 3.2x - 14.3

이렇듯 결국엔 선형 함수가 출력되게 된다.

다시 Activation Function이 존재하게 된다면

Z(x) = ReLU(-5x - 7.7) + ReLU(-1.2x - 1.3) + ReLU(1.2x + 1) + ReLU(1.2x - 0.2) + ReLU(2x - 1.1) + ReLU(5x-5)

ReLU = max(0, x) 공식에 따라서, 특정 x값이 0보다 작게된다면 해당 선형함수는 의미가 없어지게되고, 비선형적인 그래프가 출력된다(그림의 왼쪽처럼)

따라서 activation function이 존재하면 위와같이 비선형으로 만들어줄수가 있다.

[ML] bf16, fp16, fp32의 차이점 (1)	2023.05.13
[Pytorch] torch.nn layer 함수 정리 (추가정리중) (0)	2021.05.03
[ML] Clustering 정리 및 DBSCAN (0)	2021.04.22
[ML] 짜투리정리 (0)	2021.02.14
[머신러닝] LGBM, XGBoost, GBM (2)	2021.02.03

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

개발 공부방