용어 정리
제곱근 평균제곱오차 (root mean squared error, RMSE) : 회귀 시 평균제곱오차의 제곱근. 회귀모형을 평가하는 데 가장 널리 사용되는 측정 지표
잔차 표준오차(residual standard error, RSE) : 평균제곱오차와 동일하지만 자유도에 따라 보정된 값
R 제곱 : 0~1까지 모델에 의해 설명된 분산의 비율, 모델이 데이터에 얼마나 적합한지 평가하는 기준
t 통계량 : 계수의 표준오차로 나눈 예측변수의 계수. 모델에서 변수의 중요도를 비교하는 기준
가중회귀 : 다른 가중치를 가진 레코드들을 회귀하는 방법
추가 정리
$R^2 = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y_i})^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}$
$t_b = \frac{\hat{b}}{SE(\hat{b})}$
$SE$ 는 표준오차를 뜻함
t 통계량, p 값은 계수가 '통계적으로 유의미한' 정도, 즉 예측변수와 목표변수를 랜덤하게 재배치했을 때 우연히 얻을 수 있는 범위를 어느정도 벗어났는지를 측정
교차 타당성 검사 - cross validation 검증 데이터셋을 학습데이터셋에 들어가지않게 따로 떼놓고 학습진행
오컴의 면도날 - 모든 것이 동일한 조건에서는, 복잡한 모델보다는 단순한 모델을 우선 사용해야 한다는 원리
전진선택(forward selection) - 예측변수 없이 시작하여 각 단계에서 R제곱에 가장 큰 기여도를 갖는 예측변수를 하나씩 추가하고 기여도가 통계적으로 더 이상 유의미하지 않을 때 중지
후진선택(backward selection) - 전진선택과 달리 모든 예측변수를 사용하고 한개씩 빼는 방법
벌점회귀(penalized regression) - 개별 모델 집합들을 명시적으로 검색하는 대신 모델 적합 방정식에 많은 변수에 대해 모델에 불이익을 주는 제약 조건을 추가, 자주 사용되는 벌점회귀는 능형회귀와 라소가있음
회귀를 이용한 예측
예측구간(prediction interval) - 개별 예측값 주위의 불확실한 구간
외삽법(extrapolation) - 모델링에 사용된 데이터 범위를 벗어난 부분까지 모델을 확장하는 것
'Data > Data Analysis' 카테고리의 다른 글
[SQL] ROW_NUMBER(), LEAD(), LAG() (0) | 2020.04.29 |
---|---|
[Pandas] Dataframe resample 함수 (0) | 2020.03.30 |
[Statistics] 회귀와 예측 (0) | 2020.03.06 |
[Statistics] 통계학3 (0) | 2019.12.27 |
[Pyspark] list to pyspark.DataFrame (0) | 2019.12.12 |