본문 바로가기

Data/Data Analysis

[Statistics] 회귀와 예측

반응형

용어 정리

응답변수(반응변수) - 예측하고자 하는 변수

독립변수 - 응답치를 예측하기 위해 사용되는 변수

레코드 - 한 특정 경우에 대한 입력과 출력을 담고 있는 벡터

절편 - 회귀직선의 절편. 즉, X=0일 때 예측값

회귀계수 - 회귀직선의 기울기

적합값 - 회귀선으로부터 얻은 추정치 (예측값)

잔차 - 관측값과 적합값의 차이 (오차)

최소제곱 - 잔차의 제곱합을 최소화하여 회귀를 피팅하는방법 (보통최소제곱)

 

회귀식

책에는 글이 너무많아서 대충 정리

Y = aX + b

b - 절편

a - 회귀계수 (기울기)

Y - 응답변수 또는 종속변수 (머신러닝분야에선 목표벡터)

X - 독립변수 혹은 예측변수 (머신러닝분야에선 피처벡터)

 

적합값과 잔차

회귀분석에서 중요한 개념은 적합값잔차. 보통 모든 데이터가 정확히 한 직선 안에 들어오지는 않아서, 회귀식은 명시적으로 오차항 e를 포함한다. 즉 위의 식에서

$Y = aX + b + e$

 

적합값(Y)은 예측값을 지칭하는 말

 

최소제곱

그럼 어떻게 하면 좋은 회귀모델을 만들까? 실무에서 회귀선은 잔차들을 제곱한 값들의 합인 잔차제곱합(Residual Sum of Squares, RSS)을 최소화하는 선

 

$RSS = \sum_{i = 1}^{n}{(Y_i - \hat{Y}_i)^2}$

$\hat{Y_i} = \hat{b_0} + \hat{b_1}X_i$

$\hat{Y_i}$ 는 예측값이고 $Y_i$ 는 실제 값

 

잔차제곱합을 최소화하는 이러한 방법을 최소제곱회귀 혹은 보통최소제곱이라함

 

$\hat{b_1} = \frac{\sum_{i=1} ^ {n} {(Y_i - \bar{Y})*(X_i - \bar{X})}}{\sum_{i = 1} ^ {n}{(X_i - \bar{X}) ^ 2}}$

 

$\hat{b_0} = \bar{Y} - \hat{b_1}\bar{X}$

반응형

'Data > Data Analysis' 카테고리의 다른 글

[Pandas] Dataframe resample 함수  (0) 2020.03.30
[Statistics] 회귀와 예측2  (0) 2020.03.09
[Statistics] 통계학3  (0) 2019.12.27
[Pyspark] list to pyspark.DataFrame  (0) 2019.12.12
[Statistics] A/B Testing(A/B 검정)  (0) 2019.12.02