용어 정리
응답변수(반응변수) - 예측하고자 하는 변수
독립변수 - 응답치를 예측하기 위해 사용되는 변수
레코드 - 한 특정 경우에 대한 입력과 출력을 담고 있는 벡터
절편 - 회귀직선의 절편. 즉, X=0일 때 예측값
회귀계수 - 회귀직선의 기울기
적합값 - 회귀선으로부터 얻은 추정치 (예측값)
잔차 - 관측값과 적합값의 차이 (오차)
최소제곱 - 잔차의 제곱합을 최소화하여 회귀를 피팅하는방법 (보통최소제곱)
회귀식
책에는 글이 너무많아서 대충 정리
Y = aX + b
b - 절편
a - 회귀계수 (기울기)
Y - 응답변수 또는 종속변수 (머신러닝분야에선 목표벡터)
X - 독립변수 혹은 예측변수 (머신러닝분야에선 피처벡터)
적합값과 잔차
회귀분석에서 중요한 개념은 적합값과 잔차. 보통 모든 데이터가 정확히 한 직선 안에 들어오지는 않아서, 회귀식은 명시적으로 오차항 e를 포함한다. 즉 위의 식에서
$Y = aX + b + e$
적합값(Y)은 예측값을 지칭하는 말
최소제곱
그럼 어떻게 하면 좋은 회귀모델을 만들까? 실무에서 회귀선은 잔차들을 제곱한 값들의 합인 잔차제곱합(Residual Sum of Squares, RSS)을 최소화하는 선
$RSS = \sum_{i = 1}^{n}{(Y_i - \hat{Y}_i)^2}$
$\hat{Y_i} = \hat{b_0} + \hat{b_1}X_i$
$\hat{Y_i}$ 는 예측값이고 $Y_i$ 는 실제 값
잔차제곱합을 최소화하는 이러한 방법을 최소제곱회귀 혹은 보통최소제곱이라함
$\hat{b_1} = \frac{\sum_{i=1} ^ {n} {(Y_i - \bar{Y})*(X_i - \bar{X})}}{\sum_{i = 1} ^ {n}{(X_i - \bar{X}) ^ 2}}$
$\hat{b_0} = \bar{Y} - \hat{b_1}\bar{X}$
'Data > Data Analysis' 카테고리의 다른 글
[Pandas] Dataframe resample 함수 (0) | 2020.03.30 |
---|---|
[Statistics] 회귀와 예측2 (0) | 2020.03.09 |
[Statistics] 통계학3 (0) | 2019.12.27 |
[Pyspark] list to pyspark.DataFrame (0) | 2019.12.12 |
[Statistics] A/B Testing(A/B 검정) (0) | 2019.12.02 |