본문 바로가기

Data/Data Analysis

[Statistics] 회귀와 예측2

반응형

 

용어 정리

제곱근 평균제곱오차 (root mean squared error, RMSE) : 회귀 시 평균제곱오차의 제곱근. 회귀모형을 평가하는 데 가장 널리 사용되는 측정 지표

잔차 표준오차(residual standard error, RSE) : 평균제곱오차와 동일하지만 자유도에 따라 보정된 값

R 제곱 : 0~1까지 모델에 의해 설명된 분산의 비율, 모델이 데이터에 얼마나 적합한지 평가하는 기준

t 통계량 : 계수의 표준오차로 나눈 예측변수의 계수. 모델에서 변수의 중요도를 비교하는 기준

가중회귀 : 다른 가중치를 가진 레코드들을 회귀하는 방법

 

추가 정리

$R^2 = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y_i})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}$

 

$t_b = \frac{\hat{b}}{SE(\hat{b})}$

$SE$ 는 표준오차를 뜻함

 

t 통계량, p 값은 계수가 '통계적으로 유의미한' 정도, 즉 예측변수와 목표변수를 랜덤하게 재배치했을 때 우연히 얻을 수 있는 범위를 어느정도 벗어났는지를 측정

 

교차 타당성 검사 - cross validation 검증 데이터셋을 학습데이터셋에 들어가지않게 따로 떼놓고 학습진행

 

오컴의 면도날 - 모든 것이 동일한 조건에서는, 복잡한 모델보다는 단순한 모델을 우선 사용해야 한다는 원리

 

전진선택(forward selection) - 예측변수 없이 시작하여 각 단계에서 R제곱에 가장 큰 기여도를 갖는 예측변수를 하나씩 추가하고 기여도가 통계적으로 더 이상 유의미하지 않을 때 중지

후진선택(backward selection) - 전진선택과 달리 모든 예측변수를 사용하고 한개씩 빼는 방법

벌점회귀(penalized regression) - 개별 모델 집합들을 명시적으로 검색하는 대신 모델 적합 방정식에 많은 변수에 대해 모델에 불이익을 주는 제약 조건을 추가, 자주 사용되는 벌점회귀는 능형회귀와 라소가있음

 

회귀를 이용한 예측

예측구간(prediction interval) - 개별 예측값 주위의 불확실한 구간

외삽법(extrapolation) - 모델링에 사용된 데이터 범위를 벗어난 부분까지 모델을 확장하는 것

반응형

'Data > Data Analysis' 카테고리의 다른 글

[SQL] ROW_NUMBER(), LEAD(), LAG()  (0) 2020.04.29
[Pandas] Dataframe resample 함수  (0) 2020.03.30
[Statistics] 회귀와 예측  (0) 2020.03.06
[Statistics] 통계학3  (0) 2019.12.27
[Pyspark] list to pyspark.DataFrame  (0) 2019.12.12